論文の概要: Optimal Policy Minimum Bayesian Risk
- arxiv url: http://arxiv.org/abs/2505.17242v1
- Date: Thu, 22 May 2025 19:43:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.671499
- Title: Optimal Policy Minimum Bayesian Risk
- Title(参考訳): ベイズリスクを最小化する最適政策
- Authors: Ramón Fernandez Astudillo, Md Arafat Sultan, Aashka Trivedi, Yousef El-Kurdi, Tahira Naseem, Radu Florian, Salim Roukos,
- Abstract要約: ベイズリスク復号(MBRD)に報酬・リスク・類似性信号を統合する新しい手法を提案する。
KL制御強化学習における最適ポリシの概念に基づいて、このような信号を活用するためのシンプルで明確に定義されたメカニズムを提供する。
従来の推論時間法よりも、高い堅牢性、改善された精度、よく理解された振る舞いなど、いくつかの利点がある。
- 参考スコア(独自算出の注目度): 25.434911234706952
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inference scaling can help LLMs solve complex reasoning problems through extended runtime computation. On top of targeted supervision for long chain-of-thought (long-CoT) generation, purely inference-time techniques such as best-of-N (BoN) sampling, majority voting, or more generally, minimum Bayes risk decoding (MBRD), can further improve LLM accuracy by generating multiple candidate solutions and aggregating over them. These methods typically leverage additional signals in the form of reward models and risk/similarity functions that compare generated samples, e.g., exact match in some normalized space or standard similarity metrics such as Rouge. Here we present a novel method for incorporating reward and risk/similarity signals into MBRD. Based on the concept of optimal policy in KL-controlled reinforcement learning, our framework provides a simple and well-defined mechanism for leveraging such signals, offering several advantages over traditional inference-time methods: higher robustness, improved accuracy, and well-understood asymptotic behavior. In addition, it allows for the development of a sample-efficient variant of MBRD that can adjust the number of samples to generate according to the difficulty of the problem, without relying on majority vote counts. We empirically demonstrate the advantages of our approach on math (MATH-$500$) and coding (HumanEval) tasks using recent open-source models. We also present a comprehensive analysis of its accuracy-compute trade-offs.
- Abstract(参考訳): 推論スケーリングは、LLMが拡張ランタイム計算によって複雑な推論問題を解決するのに役立つ。
ロングチェーン・オブ・ソート(Long-CoT)生成のターゲット監督に加えて、ベスト・オブ・N(BoN)サンプリング、多数決、あるいはより一般的には最小ベイズリスク復号(MBRD)といった純粋に推論時間技術は、複数の候補ソリューションを生成してそれらを集約することにより、LLMの精度をさらに向上させることができる。
これらの手法は典型的には報酬モデルやリスク/相似関数といった形で追加の信号を利用し、例えば正規化された空間の正確な一致やルージュのような標準的な類似度測定値と比較する。
本稿では,MBRDに報酬・リスク・類似性信号を統合する新しい手法を提案する。
KL制御強化学習における最適ポリシの概念に基づいて、我々のフレームワークは、そのような信号を活用するためのシンプルで明確に定義されたメカニズムを提供し、従来の推論時間法よりもいくつかの利点を提供している。
さらに、MBRDのサンプル効率のよい変種を開発でき、多数決数に頼ることなく、問題の難しさに応じてサンプル数を調整して生成することができる。
我々は最近のオープンソースモデルを用いた数学(MATH-500$)とプログラミング(HumanEval)の課題に対するアプローチの利点を実証的に実証した。
また,精度・計算トレードオフの包括的分析を行った。
関連論文リスト
- Adaptive Sampled Softmax with Inverted Multi-Index: Methods, Theory and Applications [79.53938312089308]
MIDX-Samplerは、逆多重インデックスアプローチに基づく新しい適応型サンプリング戦略である。
本手法は, サンプリングバイアス, 勾配バイアス, 収束速度, 一般化誤差境界などの重要な問題に対処するため, 厳密な理論的解析によって裏付けられている。
論文 参考訳(メタデータ) (2025-01-15T04:09:21Z) - Burning RED: Unlocking Subtask-Driven Reinforcement Learning and Risk-Awareness in Average-Reward Markov Decision Processes [7.028778922533688]
平均回帰マルコフ決定プロセス(MDPs)は、不確実性の下でのシーケンシャルな意思決定の基盤となる枠組みを提供する。
本稿では,Reward-Extended Differential(RED)強化学習について紹介する。Reward-Extended Differential(RED)強化学習は,様々な学習目的,すなわちサブタスクを,平均リワード設定で同時に効果的かつ効率的に解ける新しいRLフレームワークである。
論文 参考訳(メタデータ) (2024-10-14T14:52:23Z) - Provably Efficient Information-Directed Sampling Algorithms for Multi-Agent Reinforcement Learning [50.92957910121088]
本研究は,情報指向サンプリング(IDS)の原理に基づくマルチエージェント強化学習(MARL)のための新しいアルゴリズムの設計と解析を行う。
エピソディックな2プレーヤゼロサムMGに対して、ナッシュ平衡を学習するための3つのサンプル効率アルゴリズムを提案する。
我々は、Reg-MAIDSをマルチプレイヤー汎用MGに拡張し、ナッシュ平衡または粗相関平衡をサンプル効率良く学習できることを証明する。
論文 参考訳(メタデータ) (2024-04-30T06:48:56Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。