論文の概要: Reasoning without Regret
- arxiv url: http://arxiv.org/abs/2504.09777v1
- Date: Mon, 14 Apr 2025 00:34:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:54:26.035020
- Title: Reasoning without Regret
- Title(参考訳): Regretなしの推論
- Authors: Tarun Chitra,
- Abstract要約: 本稿では,スパース結果に基づく報酬を効果的な手順に基づく信号に変換する非回帰フレームワークであるemphBackwards Adaptive Reward Shaping(BARS)を紹介する。
我々の分析は, 一般的な連鎖, 連続スケーリング限界, 非線形ファインマン・カック境界に基づいて, 最近の結果に基づく手法の実証的成功と中間管理の利点を結びつけている。
- 参考スコア(独自算出の注目度): 4.07926531936425
- License:
- Abstract: Chain-of-thought reasoning enables large language models to solve multi-step tasks by framing problem solving as sequential decision problems. Outcome-based rewards, which provide feedback only on final answers, show impressive success, but face challenges with credit assignment and slow convergence. In contrast, procedure-based rewards offer efficient step-level feedback, but typically require costly human supervision. We introduce \emph{Backwards Adaptive Reward Shaping} (BARS), a no-regret framework that converts sparse outcomes-based rewards into effective procedure-based signals. BARS uses sparse rewards generated from terminal-state priors and cover trees to scale rewards while preventing exploitation. With Bellman contraction and $(\Delta, \epsilon)$-gap rewards, our backward Euler solver achieves $\epsilon$-accuracy in $O\left((R_{\max}/\Delta)\log(1/\epsilon)\right)$ iterations with $O(\log T)$ dynamic regret over $T$ rounds. Our analysis, based on generic chaining, continuous scaling limits, and non-linear Feynman-Kac bounds, connects recent outcome-based methods' empirical successes with the benefits of intermediate supervision. Combined, this provides the first rigorous no-regret algorithm for outcome reward shaping, providing a theoretical foundation for the empirical success of DeepSeek's R1.
- Abstract(参考訳): 連鎖推論(Chain-of- Thought reasoning)により、大規模言語モデルでは、逐次決定問題として問題解決をフレーミングすることで、多段階のタスクを解くことができる。
最終回答にのみフィードバックを提供するアウトカムベースの報酬は、印象的な成功を示すが、クレジットの割り当てと緩やかな収束を伴う課題に直面している。
対照的に、プロシージャベースの報酬は効率的なステップレベルのフィードバックを提供するが、通常は人的監督を必要とする。
本稿では,スパース結果に基づく報酬を効果的な手順に基づく信号に変換する,非回帰フレームワークである \emph{Backwards Adaptive Reward Shaping} (BARS) を紹介する。
BARSは、端末状態の事前から生成されたスパース報酬を使用し、木を覆い、エクスプロイトを防止しながら報酬をスケールする。
ベルマンの縮約と$(\Delta, \epsilon)$-gapの報酬により、我々の後方のオイラー解法は$O\left((R_{\max}/\Delta)\log(1/\epsilon)\right)$O(\log T)$のラウンドに対する動的後悔を$T$のラウンドで達成する。
我々の分析は, 一般的な連鎖, 連続スケーリング限界, 非線形ファインマン・カック境界に基づいて, 最近の結果に基づく手法の実証的成功と中間管理の利点を結びつけている。
このアルゴリズムは、DeepSeekのR1の実証的な成功の理論的基盤を提供する。
関連論文リスト
- Optimistically Optimistic Exploration for Provably Efficient Infinite-Horizon Reinforcement and Imitation Learning [13.429541377715296]
無限水平割引線形マルコフ決定過程において, ほぼ最適後悔の保証を実現するための計算効率のよいアルゴリズムを提案する。
正規化された近似的動的プログラミングスキームと組み合わせると、結果のアルゴリズムは、$tildemathcalO (sqrtd3 (1 - gamma)- 7 / 2 T)$, $T$ はサンプル遷移の総数、$gamma in (0,1)$ は割引係数、$d$ は特徴次元を後悔する。
論文 参考訳(メタデータ) (2025-02-19T17:32:35Z) - Walking the Values in Bayesian Inverse Reinforcement Learning [66.68997022043075]
ベイズIRLの鍵となる課題は、可能な報酬の仮説空間と可能性の間の計算的ギャップを埋めることである。
本稿では,この知見に基づく新しいマルコフ連鎖モンテカルロ法であるValueWalkを提案する。
論文 参考訳(メタデータ) (2024-07-15T17:59:52Z) - Cost Aware Best Arm Identification [13.380383930882784]
emphCost Aware Best Arm Identification (CABAI)と呼ぶ。
平方根規則に基づくemphChernoff Overlap (CO)と呼ばれる単純なアルゴリズムを提案する。
この結果から,不均一な動作コストを無視すると,実行時の準最適性が得られ,また,簡単なアルゴリズムにより,幅広い問題に対してほぼ最適性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-02-26T16:27:08Z) - STARC: A General Framework For Quantifying Differences Between Reward Functions [52.69620361363209]
我々は、STARCメトリックと呼ばれるすべての報酬関数の空間上の擬計量のクラスを提供する。
以上の結果から,STARCは最悪の後悔に対して上界と下界の両方を誘導することがわかった。
また、以前の研究によって提案された報酬指標に関するいくつかの問題も特定します。
論文 参考訳(メタデータ) (2023-09-26T20:31:19Z) - Towards Theoretical Understanding of Inverse Reinforcement Learning [45.3190496371625]
逆強化学習(IRL)は、専門家が示す振る舞いを正当化する報酬関数を回復するアルゴリズムの強力なファミリーである。
本稿では、生成モデルを用いた有限水平問題の場合のIRLの理論ギャップを解消する。
論文 参考訳(メタデータ) (2023-04-25T16:21:10Z) - Best of Both Worlds Policy Optimization [33.13041034490332]
本稿では,正則化器,探索ボーナス,学習率を適切に設計することにより,損失が相反する場合には,より好意的なポリログ$(T)=後悔が得られることを示す。
政策最適化のために、ギャップ依存のポリログ$(T)$後悔境界が示されるのはこれが初めてである。
論文 参考訳(メタデータ) (2023-02-18T19:46:11Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - A Robust Phased Elimination Algorithm for Corruption-Tolerant Gaussian
Process Bandits [118.22458816174144]
そこで本稿では,エポックで動作するロバストな除去型アルゴリズムを提案し,探索と頻繁な切替を併用して,小さなアクションサブセットを選択し,各アクションを複数タイミングで実行する。
我々のアルゴリズムであるGP Robust Phased Elimination (RGP-PE) は、探索とエクスプロイトによる汚職に対するロバストネスのバランスに成功している。
GPバンディット設定におけるロバスト性の最初の実証的研究を行い,アルゴリズムが様々な敵攻撃に対してロバストであることを示す。
論文 参考訳(メタデータ) (2022-02-03T21:19:36Z) - Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文 参考訳(メタデータ) (2021-10-21T15:25:15Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。