Fugu-MT 論文翻訳(概要): Improved Off-policy Reinforcement Learning in Biological Sequence Design

論文の概要: Improved Off-policy Reinforcement Learning in Biological Sequence Design

arxiv url: http://arxiv.org/abs/2410.04461v1
Date: Sun, 6 Oct 2024 12:22:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-02 07:16:09.736686
Title: Improved Off-policy Reinforcement Learning in Biological Sequence Design
Title（参考訳）: 生物配列設計における外部強化学習の改善
Authors: Hyeonah Kim, Minsu Kim, Taeyoung Yun, Sanghyeok Choi, Emmanuel Bengio, Alex Hernández-García, Jinkyoo Park,
Abstract要約: 我々は,GFlowNetsをトレーニングするための新しいオフライン検索手法である$delta$-Conservative Searchを紹介した。キーとなる考え方は、パラメータ$delta$で制御される保守性を組み込んで、検索を信頼できるリージョンに制限することである。提案手法は,既存の機械学習手法よりずっと優れており,ハイスコアシーケンスの発見が可能であることを示す。
参考スコア（独自算出の注目度）: 30.335775584871037
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Designing biological sequences with desired properties is a significant challenge due to the combinatorially vast search space and the high cost of evaluating each candidate sequence. To address these challenges, reinforcement learning (RL) methods, such as GFlowNets, utilize proxy models for rapid reward evaluation and annotated data for policy training. Although these approaches have shown promise in generating diverse and novel sequences, the limited training data relative to the vast search space often leads to the misspecification of proxy for out-of-distribution inputs. We introduce $\delta$-Conservative Search, a novel off-policy search method for training GFlowNets designed to improve robustness against proxy misspecification. The key idea is to incorporate conservativeness, controlled by parameter $\delta$, to constrain the search to reliable regions. Specifically, we inject noise into high-score offline sequences by randomly masking tokens with a Bernoulli distribution of parameter $\delta$ and then denoise masked tokens using the GFlowNet policy. Additionally, $\delta$ is adaptively adjusted based on the uncertainty of the proxy model for each data point. This enables the reflection of proxy uncertainty to determine the level of conservativeness. Experimental results demonstrate that our method consistently outperforms existing machine learning methods in discovering high-score sequences across diverse tasks-including DNA, RNA, protein, and peptide design-especially in large-scale scenarios.
Abstract（参考訳）: 生物配列を望ましい性質で設計することは、組合せ的に広大な探索空間と、それぞれの候補配列を評価するコストが高いため、大きな課題である。これらの課題に対処するため、GFlowNetsのような強化学習(RL)手法では、プロキシモデルを用いて迅速な報酬評価を行い、アノテートされたデータをポリシートレーニングに利用する。これらの手法は、多種多様な新しいシーケンスを生成する上で有望であるが、膨大な検索空間に対する限られたトレーニングデータはしばしば、配布外入力のプロキシの誤特定につながる。我々は,GFlowNetsを訓練し,プロキシの誤特定に対するロバスト性を改善するための,新しいオフライン検索手法である$\delta$-Conservative Searchを紹介した。キーとなる考え方は、パラメータ$\delta$によって制御される保守性を組み込んで、検索を信頼できるリージョンに制限することである。具体的には、パラメータ$\delta$のベルヌーイ分布でランダムにトークンをマスキングし、GFlowNetポリシを使用してマスキングトークンをデノイズすることで、高スコアのオフラインシーケンスにノイズを注入する。さらに$\delta$は、各データポイントに対するプロキシモデルの不確実性に基づいて適応的に調整される。これにより、プロキシの不確実性の反映が保守性のレベルを決定することができる。実験結果から,DNA,RNA,タンパク質,ペプチドなど多種多様なタスクにまたがるハイスコア配列の発見において,既存の機械学習手法よりも一貫して優れており,特に大規模シナリオにおいてその性能が向上することが示唆された。

関連論文リスト

$β$-DQN: Improving Deep Q-Learning By Evolving the Behavior [41.13282452752521]
$beta$-DQNは、振る舞い関数で標準DQNを拡張する、シンプルで効率的な探索方法である。適応型メタコントローラは、各エピソードに有効なポリシーを選択し、柔軟で説明可能な探索を可能にするように設計されている。単純かつ挑戦的な探索領域の実験は、$beta$-DQNが既存のベースラインメソッドより優れていることを示している。
論文参考訳（メタデータ） (2025-01-01T18:12:18Z)
Uncertainty-Aware Reward-Free Exploration with General Function Approximation [69.27868448449755]
本稿では、algと呼ばれる報酬のない強化学習アルゴリズムを提案する。私たちのアルゴリズムの背後にある重要なアイデアは、環境を探索する上で不確実性を認識した本質的な報酬である。実験の結果、GFA-RFEは最先端の教師なしRLアルゴリズムよりも優れ、あるいは同等であることがわかった。
論文参考訳（メタデータ） (2024-06-24T01:37:18Z)
An Empirical Study of the Effectiveness of Using a Replay Buffer on Mode Discovery in GFlowNets [47.82697599507171]
強化学習 (Reinforcement Learning, RL) アルゴリズムは, アクションを反復的にサンプリングし, 期待したリターンを最大化する方法を学習し, 最適なポリシーを学習することを目的としている。 GFlowNetsは、R(x)$の比例サンプリングを近似したポリシーを学ぶことによって、離散集合から様々な候補を$x$で生成するように設計されたアルゴリズムの特別なクラスである。
論文参考訳（メタデータ） (2023-07-15T01:17:14Z)
Thompson sampling for improved exploration in GFlowNets [75.89693358516944]
生成フローネットワーク(Generative Flow Networks, GFlowNets)は、合成対象物上の分布からのサンプリングを、学習可能なアクションポリシーを用いたシーケンシャルな意思決定問題として扱う、アモータイズされた変分推論アルゴリズムである。 2つの領域において、TS-GFNは、過去の研究で使われたオフ・ポリティクス・サーベイ・ストラテジーよりも、探索を改善し、目標分布への収束を早くすることを示す。
論文参考訳（メタデータ） (2023-06-30T14:19:44Z)
Fast, Distribution-free Predictive Inference for Neural Networks with Coverage Guarantees [25.798057062452443]
本稿では,予測推論(PI)のための新しい計算効率アルゴリズムを提案する。データに対する分布的な仮定は不要で、ニューラルネットワークの既存のブートストラップ方式よりも高速に計算できる。
論文参考訳（メタデータ） (2023-06-11T04:03:58Z)
Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文参考訳（メタデータ） (2023-05-29T17:11:28Z)
Towards Understanding and Improving GFlowNet Training [71.85707593318297]
本稿では,学習したサンプリング分布と目標報酬分布を比較するための効率的な評価手法を提案する。本稿では,高解像度のx$,相対的エッジフローポリシーのパラメータ化,新しい軌道バランス目標を提案する。
論文参考訳（メタデータ） (2023-05-11T22:50:41Z)
Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文参考訳（メタデータ） (2021-10-21T15:25:15Z)
On Reward-Free RL with Kernel and Neural Function Approximations: Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文参考訳（メタデータ） (2021-10-19T07:26:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。