Fugu-MT 論文翻訳(概要): Robust Reinforcement Learning for Discrete Compositional Generation via General Soft Operators

論文の概要: Robust Reinforcement Learning for Discrete Compositional Generation via General Soft Operators

arxiv url: http://arxiv.org/abs/2506.17007v1
Date: Fri, 20 Jun 2025 14:03:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-23 19:00:05.474253
Title: Robust Reinforcement Learning for Discrete Compositional Generation via General Soft Operators
Title（参考訳）: 一般ソフト演算子による離散合成生成のためのロバスト強化学習
Authors: Marco Jiralerspong, Esther Derman, Danilo Vucetic, Nikolay Malkin, Bilun Sun, Tianyu Zhang, Pierre-Luc Bacon, Gauthier Gidel,
Abstract要約: 既存の手法は、しばしば報酬関数に比例してサンプリングされるが、不適切であり、最適でない候補が得られることを示す。我々は、ロバストなRLアプローチを導入し、プロキシ報酬関数の堅牢性を求める統一演算子を導入する。それはまた、合成タスクと実世界のタスクの両方において、高品質で多様な候補を特定する新しいアルゴリズムを生み出します。
参考スコア（独自算出の注目度）: 32.7751563720018
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A major bottleneck in scientific discovery involves narrowing a large combinatorial set of objects, such as proteins or molecules, to a small set of promising candidates. While this process largely relies on expert knowledge, recent methods leverage reinforcement learning (RL) to enhance this filtering. They achieve this by estimating proxy reward functions from available datasets and using regularization to generate more diverse candidates. These reward functions are inherently uncertain, raising a particularly salient challenge for scientific discovery. In this work, we show that existing methods, often framed as sampling proportional to a reward function, are inadequate and yield suboptimal candidates, especially in large search spaces. To remedy this issue, we take a robust RL approach and introduce a unified operator that seeks robustness to the uncertainty of the proxy reward function. This general operator targets peakier sampling distributions while encompassing known soft RL operators. It also leads us to a novel algorithm that identifies higher-quality, diverse candidates in both synthetic and real-world tasks. Ultimately, our work offers a new, flexible perspective on discrete compositional generation tasks. Code: https://github.com/marcojira/tgm.
Abstract（参考訳）: 科学的発見における大きなボトルネックは、タンパク質や分子などの大きな組み合わせの集合を、少数の候補に絞ることである。このプロセスは専門家の知識に大きく依存するが、最近の手法では強化学習(RL)を活用してフィルタリングを強化する。これを実現するために、利用可能なデータセットからプロキシ報酬関数を推定し、より多様な候補を生成するために正規化を使用する。これらの報酬関数は本質的に不確実であり、科学的な発見に対して特に健全な課題を提起している。本研究では,報酬関数に比例したサンプリング手法が不十分であり,特に大規模探索空間において,最適でない候補が得られることを示す。この問題を解決するために、我々は、ロバストなRLアプローチを採用し、プロキシ報酬関数の不確実性に対するロバスト性を求める統一演算子を導入する。この一般作用素は、既知のソフトなRL演算子を包含しながら、ピーク値のサンプリング分布をターゲットとする。それはまた、合成タスクと実世界のタスクの両方において、高品質で多様な候補を特定する新しいアルゴリズムを生み出します。最終的に、我々の研究は、離散的な構成生成タスクについて、新しいフレキシブルな視点を提供する。コード:https://github.com/marcojira/tgm.com

関連論文リスト

MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization [91.80034860399677]
強化学習アルゴリズムは、現在のベスト戦略の活用と、より高い報酬につながる可能性のある新しいオプションの探索のバランスを図ることを目的としている。我々は本質的な探索と外生的な探索のバランスをとるためのフレームワークMaxInfoRLを紹介する。提案手法は,マルチアームバンディットの簡易な設定において,サブリニアな後悔を実現するものである。
論文参考訳（メタデータ） (2024-12-16T18:59:53Z)
Online Intrinsic Rewards for Decision Making Agents from Large Language Model Feedback [45.82577700155503]
Oniは分散アーキテクチャで、RLポリシーと本質的な報酬関数を同時に学習する。提案手法は,NetHack 学習環境から得られる,難易度の高い報奨課題にまたがって,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-10-30T13:52:43Z)
Uncertainty-Aware Reward-Free Exploration with General Function Approximation [69.27868448449755]
本稿では、algと呼ばれる報酬のない強化学習アルゴリズムを提案する。私たちのアルゴリズムの背後にある重要なアイデアは、環境を探索する上で不確実性を認識した本質的な報酬である。実験の結果、GFA-RFEは最先端の教師なしRLアルゴリズムよりも優れ、あるいは同等であることがわかった。
論文参考訳（メタデータ） (2024-06-24T01:37:18Z)
The Effective Horizon Explains Deep RL Performance in Stochastic Environments [21.148001945560075]
強化学習(Reinforcement Learning, RL)理論は、最小の複雑性サンプル境界の証明に重点を置いている。本稿では,RLアルゴリズムSQIRLを提案する。このアルゴリズムはランダムに探索してロールアウトを収集することで,最適に近いポリシーを反復的に学習する。我々は、SQIRLを利用して、指数的に「効果的な地平線」のルックアヘッドにのみ現れるRLのインスタンス依存のサンプル複雑性境界を導出し、近似に使用されるクラスの複雑性を導出する。
論文参考訳（メタデータ） (2023-12-13T18:58:56Z)
Learning Long-Term Reward Redistribution via Randomized Return Decomposition [18.47810850195995]
軌跡フィードバックを用いたエピソード強化学習の問題点について考察する。これは、エージェントが各軌道の終端で1つの報酬信号しか取得できないような、報酬信号の極端な遅延を指す。本稿では,代償再分配アルゴリズムであるランダムリターン分解(RRD)を提案する。
論文参考訳（メタデータ） (2021-11-26T13:23:36Z)
On Reward-Free RL with Kernel and Neural Function Approximations: Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文参考訳（メタデータ） (2021-10-19T07:26:33Z)
MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。正規化最大度(NML)分布の計算法を提案する。得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文参考訳（メタデータ） (2021-07-15T08:19:57Z)
Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文参考訳（メタデータ） (2021-02-24T18:46:42Z)
Provably Efficient Reward-Agnostic Navigation with Linear Value Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文参考訳（メタデータ） (2020-08-18T04:34:21Z)
Active Finite Reward Automaton Inference and Reinforcement Learning Using Queries and Counterexamples [31.31937554018045]
深部強化学習(RL)法は, 良好な性能を達成するために, 環境探索からの集中的なデータを必要とする。本稿では,RLエージェントが探索過程を推論し,その将来的な探索を効果的に導くための高レベルの知識を蒸留するフレームワークを提案する。具体的には、L*学習アルゴリズムを用いて、有限報酬オートマトンという形で高レベルの知識を学習する新しいRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-28T21:13:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。