論文の概要: Robust Reinforcement Learning for Discrete Compositional Generation via General Soft Operators
- arxiv url: http://arxiv.org/abs/2506.17007v1
- Date: Fri, 20 Jun 2025 14:03:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.474253
- Title: Robust Reinforcement Learning for Discrete Compositional Generation via General Soft Operators
- Title(参考訳): 一般ソフト演算子による離散合成生成のためのロバスト強化学習
- Authors: Marco Jiralerspong, Esther Derman, Danilo Vucetic, Nikolay Malkin, Bilun Sun, Tianyu Zhang, Pierre-Luc Bacon, Gauthier Gidel,
- Abstract要約: 既存の手法は、しばしば報酬関数に比例してサンプリングされるが、不適切であり、最適でない候補が得られることを示す。
我々は、ロバストなRLアプローチを導入し、プロキシ報酬関数の堅牢性を求める統一演算子を導入する。
それはまた、合成タスクと実世界のタスクの両方において、高品質で多様な候補を特定する新しいアルゴリズムを生み出します。
- 参考スコア(独自算出の注目度): 32.7751563720018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A major bottleneck in scientific discovery involves narrowing a large combinatorial set of objects, such as proteins or molecules, to a small set of promising candidates. While this process largely relies on expert knowledge, recent methods leverage reinforcement learning (RL) to enhance this filtering. They achieve this by estimating proxy reward functions from available datasets and using regularization to generate more diverse candidates. These reward functions are inherently uncertain, raising a particularly salient challenge for scientific discovery. In this work, we show that existing methods, often framed as sampling proportional to a reward function, are inadequate and yield suboptimal candidates, especially in large search spaces. To remedy this issue, we take a robust RL approach and introduce a unified operator that seeks robustness to the uncertainty of the proxy reward function. This general operator targets peakier sampling distributions while encompassing known soft RL operators. It also leads us to a novel algorithm that identifies higher-quality, diverse candidates in both synthetic and real-world tasks. Ultimately, our work offers a new, flexible perspective on discrete compositional generation tasks. Code: https://github.com/marcojira/tgm.
- Abstract(参考訳): 科学的発見における大きなボトルネックは、タンパク質や分子などの大きな組み合わせの集合を、少数の候補に絞ることである。
このプロセスは専門家の知識に大きく依存するが、最近の手法では強化学習(RL)を活用してフィルタリングを強化する。
これを実現するために、利用可能なデータセットからプロキシ報酬関数を推定し、より多様な候補を生成するために正規化を使用する。
これらの報酬関数は本質的に不確実であり、科学的な発見に対して特に健全な課題を提起している。
本研究では,報酬関数に比例したサンプリング手法が不十分であり,特に大規模探索空間において,最適でない候補が得られることを示す。
この問題を解決するために、我々は、ロバストなRLアプローチを採用し、プロキシ報酬関数の不確実性に対するロバスト性を求める統一演算子を導入する。
この一般作用素は、既知のソフトなRL演算子を包含しながら、ピーク値のサンプリング分布をターゲットとする。
それはまた、合成タスクと実世界のタスクの両方において、高品質で多様な候補を特定する新しいアルゴリズムを生み出します。
最終的に、我々の研究は、離散的な構成生成タスクについて、新しいフレキシブルな視点を提供する。
コード:https://github.com/marcojira/tgm.com
関連論文リスト
- A Practitioner's Guide to Multi-turn Agentic Reinforcement Learning [12.179148605060298]
マルチターン強化学習を通じて,大規模言語モデルをエージェントとして訓練する上で,実際にどのような効果があるのか,どのような効果があるのかを検討する。
デザインスペースを環境、報酬、ポリシーという3つの相互関係の柱に分割します。
これらの知見を,3つの柱にまたがる共同設計を指導する学習レシピに抽出する。
論文 参考訳(メタデータ) (2025-10-01T17:23:04Z) - Optimal Policy Minimum Bayesian Risk [19.85900938679571]
本稿では,最小ベイズリスク復号法に報酬・リスク・類似性を組み込む新しい手法を提案する。
KL制御強化学習における最適ポリシの概念に基づいて、このような信号を活用するためのシンプルで明確に定義されたメカニズムを提供する。
従来の推論時間法よりも、高い堅牢性、改善された精度、よく理解された振る舞いなど、いくつかの利点がある。
論文 参考訳(メタデータ) (2025-05-22T19:43:37Z) - Multi-Agent Inverse Q-Learning from Demonstrations [3.4136908117644698]
Multi-Agent Marginal Q-Learning from Demonstrations (MAMQL)は、マルチエージェントIRLのための新しいサンプル効率フレームワークである。
MAMQLは,従来のマルチエージェント手法よりも平均報酬率,サンプル効率,報酬回復率を2~5倍に向上させることを示した。
論文 参考訳(メタデータ) (2025-03-06T18:22:29Z) - Avoiding $\mathbf{exp(R_{max})}$ scaling in RLHF through Preference-based Exploration [24.159962127055085]
RLHF(Reinforcement Learning from Human Feedback)は,大規模言語モデル(LLM)アライメントのための重要な手法として登場した。
本稿では、オンラインRLHFの設定と、サンプル効率の向上に焦点をあてる。
論文 参考訳(メタデータ) (2025-02-02T04:40:04Z) - MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization [91.80034860399677]
強化学習アルゴリズムは、現在のベスト戦略の活用と、より高い報酬につながる可能性のある新しいオプションの探索のバランスを図ることを目的としている。
我々は本質的な探索と外生的な探索のバランスをとるためのフレームワークMaxInfoRLを紹介する。
提案手法は,マルチアームバンディットの簡易な設定において,サブリニアな後悔を実現するものである。
論文 参考訳(メタデータ) (2024-12-16T18:59:53Z) - Online Intrinsic Rewards for Decision Making Agents from Large Language Model Feedback [45.82577700155503]
Oniは分散アーキテクチャで、RLポリシーと本質的な報酬関数を同時に学習する。
提案手法は,NetHack 学習環境から得られる,難易度の高い報奨課題にまたがって,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-30T13:52:43Z) - Uncertainty-Aware Reward-Free Exploration with General Function Approximation [69.27868448449755]
本稿では、algと呼ばれる報酬のない強化学習アルゴリズムを提案する。
私たちのアルゴリズムの背後にある重要なアイデアは、環境を探索する上で不確実性を認識した本質的な報酬である。
実験の結果、GFA-RFEは最先端の教師なしRLアルゴリズムよりも優れ、あるいは同等であることがわかった。
論文 参考訳(メタデータ) (2024-06-24T01:37:18Z) - Discrete Probabilistic Inference as Control in Multi-path Environments [84.67055173040107]
本稿では,離散分布と構造化分布からサンプリングする問題を逐次決定問題として考察する。
我々は,GFlowNetが,フローの保存を強制することによって,報酬に比例してオブジェクトをサンプリングするポリシーを学習していることを示す。
また、GFlowNetの文献で見られるフローマッチングの目的が、精度の高いMaxEnt RLアルゴリズムと等価であることも証明した。
論文 参考訳(メタデータ) (2024-02-15T20:20:35Z) - The Effective Horizon Explains Deep RL Performance in Stochastic Environments [21.148001945560075]
強化学習(Reinforcement Learning, RL)理論は、最小の複雑性サンプル境界の証明に重点を置いている。
本稿では,RLアルゴリズムSQIRLを提案する。このアルゴリズムはランダムに探索してロールアウトを収集することで,最適に近いポリシーを反復的に学習する。
我々は、SQIRLを利用して、指数的に「効果的な地平線」のルックアヘッドにのみ現れるRLのインスタンス依存のサンプル複雑性境界を導出し、近似に使用されるクラスの複雑性を導出する。
論文 参考訳(メタデータ) (2023-12-13T18:58:56Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Learning Long-Term Reward Redistribution via Randomized Return
Decomposition [18.47810850195995]
軌跡フィードバックを用いたエピソード強化学習の問題点について考察する。
これは、エージェントが各軌道の終端で1つの報酬信号しか取得できないような、報酬信号の極端な遅延を指す。
本稿では,代償再分配アルゴリズムであるランダムリターン分解(RRD)を提案する。
論文 参考訳(メタデータ) (2021-11-26T13:23:36Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Flow Network based Generative Models for Non-Iterative Diverse Candidate
Generation [110.09855163856326]
本稿では,アクションのシーケンスからオブジェクトを生成するためのポリシーを学習する問題について述べる。
本稿では,生成過程をフローネットワークとして見たGFlowNetを提案する。
提案した目的の任意のグローバルな最小限が、所望の分布から標本化する方針を導出することを証明する。
論文 参考訳(メタデータ) (2021-06-08T14:21:10Z) - Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。
特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。
我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文 参考訳(メタデータ) (2021-02-24T18:46:42Z) - Fewer is More: A Deep Graph Metric Learning Perspective Using Fewer
Proxies [65.92826041406802]
本稿では,グラフ分類の観点から,プロキシベースのディープグラフメトリックラーニング手法を提案する。
複数のグローバルプロキシを利用して、各クラスの元のデータポイントを総括的に近似する。
本研究では, 近接関係を接地トラス・ラベルに従って調整する, 新たな逆ラベル伝搬アルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-10-26T14:52:42Z) - Exploration in two-stage recommender systems [79.50534282841618]
2段階のレコメンデータシステムは、スケーラビリティと保守性のために業界で広く採用されている。
このセットアップの鍵となる課題は、各ステージの最適性能が最適なグローバルパフォーマンスを暗示していないことである。
そこで本研究では,ランクとノミネーター間の探索戦略を同期させる手法を提案する。
論文 参考訳(メタデータ) (2020-09-01T16:52:51Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - Active Finite Reward Automaton Inference and Reinforcement Learning
Using Queries and Counterexamples [31.31937554018045]
深部強化学習(RL)法は, 良好な性能を達成するために, 環境探索からの集中的なデータを必要とする。
本稿では,RLエージェントが探索過程を推論し,その将来的な探索を効果的に導くための高レベルの知識を蒸留するフレームワークを提案する。
具体的には、L*学習アルゴリズムを用いて、有限報酬オートマトンという形で高レベルの知識を学習する新しいRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-28T21:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。