論文の概要: Improved Off-policy Reinforcement Learning in Biological Sequence Design
- arxiv url: http://arxiv.org/abs/2410.04461v1
- Date: Sun, 6 Oct 2024 12:22:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-02 07:16:09.736686
- Title: Improved Off-policy Reinforcement Learning in Biological Sequence Design
- Title(参考訳): 生物配列設計における外部強化学習の改善
- Authors: Hyeonah Kim, Minsu Kim, Taeyoung Yun, Sanghyeok Choi, Emmanuel Bengio, Alex Hernández-García, Jinkyoo Park,
- Abstract要約: 我々は,GFlowNetsをトレーニングするための新しいオフライン検索手法である$delta$-Conservative Searchを紹介した。
キーとなる考え方は、パラメータ$delta$で制御される保守性を組み込んで、検索を信頼できるリージョンに制限することである。
提案手法は,既存の機械学習手法よりずっと優れており,ハイスコアシーケンスの発見が可能であることを示す。
- 参考スコア(独自算出の注目度): 30.335775584871037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Designing biological sequences with desired properties is a significant challenge due to the combinatorially vast search space and the high cost of evaluating each candidate sequence. To address these challenges, reinforcement learning (RL) methods, such as GFlowNets, utilize proxy models for rapid reward evaluation and annotated data for policy training. Although these approaches have shown promise in generating diverse and novel sequences, the limited training data relative to the vast search space often leads to the misspecification of proxy for out-of-distribution inputs. We introduce $\delta$-Conservative Search, a novel off-policy search method for training GFlowNets designed to improve robustness against proxy misspecification. The key idea is to incorporate conservativeness, controlled by parameter $\delta$, to constrain the search to reliable regions. Specifically, we inject noise into high-score offline sequences by randomly masking tokens with a Bernoulli distribution of parameter $\delta$ and then denoise masked tokens using the GFlowNet policy. Additionally, $\delta$ is adaptively adjusted based on the uncertainty of the proxy model for each data point. This enables the reflection of proxy uncertainty to determine the level of conservativeness. Experimental results demonstrate that our method consistently outperforms existing machine learning methods in discovering high-score sequences across diverse tasks-including DNA, RNA, protein, and peptide design-especially in large-scale scenarios.
- Abstract(参考訳): 生物配列を望ましい性質で設計することは、組合せ的に広大な探索空間と、それぞれの候補配列を評価するコストが高いため、大きな課題である。
これらの課題に対処するため、GFlowNetsのような強化学習(RL)手法では、プロキシモデルを用いて迅速な報酬評価を行い、アノテートされたデータをポリシートレーニングに利用する。
これらの手法は、多種多様な新しいシーケンスを生成する上で有望であるが、膨大な検索空間に対する限られたトレーニングデータはしばしば、配布外入力のプロキシの誤特定につながる。
我々は,GFlowNetsを訓練し,プロキシの誤特定に対するロバスト性を改善するための,新しいオフライン検索手法である$\delta$-Conservative Searchを紹介した。
キーとなる考え方は、パラメータ$\delta$によって制御される保守性を組み込んで、検索を信頼できるリージョンに制限することである。
具体的には、パラメータ$\delta$のベルヌーイ分布でランダムにトークンをマスキングし、GFlowNetポリシを使用してマスキングトークンをデノイズすることで、高スコアのオフラインシーケンスにノイズを注入する。
さらに$\delta$は、各データポイントに対するプロキシモデルの不確実性に基づいて適応的に調整される。
これにより、プロキシの不確実性の反映が保守性のレベルを決定することができる。
実験結果から,DNA,RNA,タンパク質,ペプチドなど多種多様なタスクにまたがるハイスコア配列の発見において,既存の機械学習手法よりも一貫して優れており,特に大規模シナリオにおいてその性能が向上することが示唆された。
関連論文リスト
- $β$-DQN: Improving Deep Q-Learning By Evolving the Behavior [41.13282452752521]
$beta$-DQNは、振る舞い関数で標準DQNを拡張する、シンプルで効率的な探索方法である。
適応型メタコントローラは、各エピソードに有効なポリシーを選択し、柔軟で説明可能な探索を可能にするように設計されている。
単純かつ挑戦的な探索領域の実験は、$beta$-DQNが既存のベースラインメソッドより優れていることを示している。
論文 参考訳(メタデータ) (2025-01-01T18:12:18Z) - Uncertainty-Aware Reward-Free Exploration with General Function Approximation [69.27868448449755]
本稿では、algと呼ばれる報酬のない強化学習アルゴリズムを提案する。
私たちのアルゴリズムの背後にある重要なアイデアは、環境を探索する上で不確実性を認識した本質的な報酬である。
実験の結果、GFA-RFEは最先端の教師なしRLアルゴリズムよりも優れ、あるいは同等であることがわかった。
論文 参考訳(メタデータ) (2024-06-24T01:37:18Z) - An Empirical Study of the Effectiveness of Using a Replay Buffer on Mode
Discovery in GFlowNets [47.82697599507171]
強化学習 (Reinforcement Learning, RL) アルゴリズムは, アクションを反復的にサンプリングし, 期待したリターンを最大化する方法を学習し, 最適なポリシーを学習することを目的としている。
GFlowNetsは、R(x)$の比例サンプリングを近似したポリシーを学ぶことによって、離散集合から様々な候補を$x$で生成するように設計されたアルゴリズムの特別なクラスである。
論文 参考訳(メタデータ) (2023-07-15T01:17:14Z) - Thompson sampling for improved exploration in GFlowNets [75.89693358516944]
生成フローネットワーク(Generative Flow Networks, GFlowNets)は、合成対象物上の分布からのサンプリングを、学習可能なアクションポリシーを用いたシーケンシャルな意思決定問題として扱う、アモータイズされた変分推論アルゴリズムである。
2つの領域において、TS-GFNは、過去の研究で使われたオフ・ポリティクス・サーベイ・ストラテジーよりも、探索を改善し、目標分布への収束を早くすることを示す。
論文 参考訳(メタデータ) (2023-06-30T14:19:44Z) - Fast, Distribution-free Predictive Inference for Neural Networks with
Coverage Guarantees [25.798057062452443]
本稿では,予測推論(PI)のための新しい計算効率アルゴリズムを提案する。
データに対する分布的な仮定は不要で、ニューラルネットワークの既存のブートストラップ方式よりも高速に計算できる。
論文 参考訳(メタデータ) (2023-06-11T04:03:58Z) - Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。
代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。
提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文 参考訳(メタデータ) (2023-05-29T17:11:28Z) - Towards Understanding and Improving GFlowNet Training [71.85707593318297]
本稿では,学習したサンプリング分布と目標報酬分布を比較するための効率的な評価手法を提案する。
本稿では,高解像度のx$,相対的エッジフローポリシーのパラメータ化,新しい軌道バランス目標を提案する。
論文 参考訳(メタデータ) (2023-05-11T22:50:41Z) - Contextual Bandits in a Survey Experiment on Charitable Giving:
Within-Experiment Outcomes versus Policy Learning [21.9468085255912]
我々は,対象とする治療課題ポリシーを学習するための適応的な実験(文脈的帯域幅')を設計し,実装する。
目的は、参加者のアンケート回答を使用して、寄付募集においてどの慈善団体に公開するかを決定することである。
パイロットデータを収集し, シミュレーション実験を行うことにより, 代替実験設計の評価を行った。
論文 参考訳(メタデータ) (2022-11-22T04:44:17Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - Sample Complexity of Nonparametric Off-Policy Evaluation on
Low-Dimensional Manifolds using Deep Networks [71.95722100511627]
深層ニューラルネットワークを用いた強化学習における非政治的評価問題について考察する。
ネットワークサイズを適切に選択することにより、マルコフ決定過程において低次元多様体構造を利用することができることを示す。
論文 参考訳(メタデータ) (2022-06-06T20:25:20Z) - Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文 参考訳(メタデータ) (2021-10-21T15:25:15Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。