論文の概要: Improved Off-policy Reinforcement Learning in Biological Sequence Design
- arxiv url: http://arxiv.org/abs/2410.04461v2
- Date: Mon, 16 Jun 2025 21:12:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.050167
- Title: Improved Off-policy Reinforcement Learning in Biological Sequence Design
- Title(参考訳): 生物配列設計における外部強化学習の改善
- Authors: Hyeonah Kim, Minsu Kim, Taeyoung Yun, Sanghyeok Choi, Emmanuel Bengio, Alex Hernández-García, Jinkyoo Park,
- Abstract要約: 本稿では,政策探索を信頼性のある地域に限定することでロバスト性を高める,新たな非政治検索法である$delta$-Conservative Searchを提案する。
実験の結果,既存の機械学習手法よりも高い精度で高速なシーケンスを探索できることがわかった。
- 参考スコア(独自算出の注目度): 30.335775584871037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Designing biological sequences with desired properties is challenging due to vast search spaces and limited evaluation budgets. Although reinforcement learning methods use proxy models for rapid reward evaluation, insufficient training data can cause proxy misspecification on out-of-distribution inputs. To address this, we propose a novel off-policy search, $\delta$-Conservative Search, that enhances robustness by restricting policy exploration to reliable regions. Starting from high-score offline sequences, we inject noise by randomly masking tokens with probability $\delta$, then denoise them using our policy. We further adapt $\delta$ based on proxy uncertainty on each data point, aligning the level of conservativeness with model confidence. Experimental results show that our conservative search consistently enhances the off-policy training, outperforming existing machine learning methods in discovering high-score sequences across diverse tasks, including DNA, RNA, protein, and peptide design.
- Abstract(参考訳): 広い探索空間と限られた評価予算のため,生物配列を望ましい性質で設計することは困難である。
強化学習法は,迅速な報奨評価にプロキシモデルを用いるが,トレーニングデータの不十分さは,アウト・オブ・ディストリビューション・インプットにおけるプロキシの特定を招きかねない。
そこで本稿では,政策探索を信頼性のある地域に限定することでロバスト性を高める,新たな非政治検索法である$\delta$-Conservative Searchを提案する。
高スコアのオフラインシーケンスから始めて、確率$\delta$でランダムにトークンをマスキングしてノイズを注入します。
さらに、各データポイントにおけるプロキシの不確実性に基づいて$\delta$を適用し、保守性のレベルとモデルの信頼性を一致させます。
実験の結果、我々の保守的な探索は、DNA、RNA、タンパク質、ペプチドの設計を含む様々なタスクにまたがるハイスコア配列を発見するために、既存の機械学習手法よりも優れた、非政治的な訓練を継続的に強化することが示された。
関連論文リスト
- $β$-DQN: Improving Deep Q-Learning By Evolving the Behavior [41.13282452752521]
$beta$-DQNは、振る舞い関数で標準DQNを拡張する、シンプルで効率的な探索方法である。
適応型メタコントローラは、各エピソードに有効なポリシーを選択し、柔軟で説明可能な探索を可能にするように設計されている。
単純かつ挑戦的な探索領域の実験は、$beta$-DQNが既存のベースラインメソッドより優れていることを示している。
論文 参考訳(メタデータ) (2025-01-01T18:12:18Z) - Uncertainty-Aware Reward-Free Exploration with General Function Approximation [69.27868448449755]
本稿では、algと呼ばれる報酬のない強化学習アルゴリズムを提案する。
私たちのアルゴリズムの背後にある重要なアイデアは、環境を探索する上で不確実性を認識した本質的な報酬である。
実験の結果、GFA-RFEは最先端の教師なしRLアルゴリズムよりも優れ、あるいは同等であることがわかった。
論文 参考訳(メタデータ) (2024-06-24T01:37:18Z) - An Empirical Study of the Effectiveness of Using a Replay Buffer on Mode
Discovery in GFlowNets [47.82697599507171]
強化学習 (Reinforcement Learning, RL) アルゴリズムは, アクションを反復的にサンプリングし, 期待したリターンを最大化する方法を学習し, 最適なポリシーを学習することを目的としている。
GFlowNetsは、R(x)$の比例サンプリングを近似したポリシーを学ぶことによって、離散集合から様々な候補を$x$で生成するように設計されたアルゴリズムの特別なクラスである。
論文 参考訳(メタデータ) (2023-07-15T01:17:14Z) - Thompson sampling for improved exploration in GFlowNets [75.89693358516944]
生成フローネットワーク(Generative Flow Networks, GFlowNets)は、合成対象物上の分布からのサンプリングを、学習可能なアクションポリシーを用いたシーケンシャルな意思決定問題として扱う、アモータイズされた変分推論アルゴリズムである。
2つの領域において、TS-GFNは、過去の研究で使われたオフ・ポリティクス・サーベイ・ストラテジーよりも、探索を改善し、目標分布への収束を早くすることを示す。
論文 参考訳(メタデータ) (2023-06-30T14:19:44Z) - Fast, Distribution-free Predictive Inference for Neural Networks with
Coverage Guarantees [25.798057062452443]
本稿では,予測推論(PI)のための新しい計算効率アルゴリズムを提案する。
データに対する分布的な仮定は不要で、ニューラルネットワークの既存のブートストラップ方式よりも高速に計算できる。
論文 参考訳(メタデータ) (2023-06-11T04:03:58Z) - Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。
代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。
提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文 参考訳(メタデータ) (2023-05-29T17:11:28Z) - Towards Understanding and Improving GFlowNet Training [71.85707593318297]
本稿では,学習したサンプリング分布と目標報酬分布を比較するための効率的な評価手法を提案する。
本稿では,高解像度のx$,相対的エッジフローポリシーのパラメータ化,新しい軌道バランス目標を提案する。
論文 参考訳(メタデータ) (2023-05-11T22:50:41Z) - Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文 参考訳(メタデータ) (2021-10-21T15:25:15Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。