論文の概要: Thought-Augmented Policy Optimization: Bridging External Guidance and Internal Capabilities
- arxiv url: http://arxiv.org/abs/2505.15692v2
- Date: Mon, 26 May 2025 15:56:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 14:32:55.439681
- Title: Thought-Augmented Policy Optimization: Bridging External Guidance and Internal Capabilities
- Title(参考訳): 思想強化政策最適化:外部ガイダンスと内部能力の橋渡し
- Authors: Jinyang Wu, Chonghua Liao, Mingkuan Feng, Shuai Zhang, Zhengqi Wen, Pengpeng Shao, Huazhe Xu, Jianhua Tao,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は, 推論モデルの学習に有効な手法である。
外部の高レベルガイダンス(「思考パターン」)を取り入れてRLを強化するフレームワークであるTAPOを提案する。
AIMEではGRPOが99%,AMCでは41%,Minerva Mathでは17%,それぞれ有意に向上した。
- 参考スコア(独自算出の注目度): 45.989423626537985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has emerged as an effective method for training reasoning models. However, existing RL approaches typically bias the model's output distribution toward reward-maximizing paths without introducing external knowledge. This limits their exploration capacity and results in a narrower reasoning capability boundary compared to base models. To address this limitation, we propose TAPO (Thought-Augmented Policy Optimization), a novel framework that augments RL by incorporating external high-level guidance ("thought patterns"). By adaptively integrating structured thoughts during training, TAPO effectively balances model-internal exploration and external guidance exploitation. Extensive experiments show that our approach significantly outperforms GRPO by 99% on AIME, 41% on AMC, and 17% on Minerva Math. Notably, these high-level thought patterns, abstracted from only 500 prior samples, generalize effectively across various tasks and models. This highlights TAPO's potential for broader applications across multiple tasks and domains. Our further analysis reveals that introducing external guidance produces powerful reasoning models with superior explainability of inference behavior and enhanced output readability.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は, 推論モデルの学習に有効な手法である。
しかしながら、既存のRLアプローチは通常、外部知識を導入することなく、報酬を最大化するパスに対してモデルの出力分布をバイアスする。
これにより探索能力が制限され、基礎モデルと比較して推論能力の境界が狭くなる。
この制限に対処するために、外部の高レベルガイダンス(「思考パターン」)を取り入れてRLを強化する新しいフレームワークであるTAPO(Thought-Augmented Policy Optimization)を提案する。
トレーニング中に構造化思想を適応的に統合することにより、TAPOはモデル内部探索と外部ガイダンスの活用を効果的にバランスさせる。
AIMEではGRPOが99%,AMCでは41%,Minerva Mathでは17%向上した。
特に、これらの高レベルの思考パターンは、500の先行サンプルから抽象化され、様々なタスクやモデルに対して効果的に一般化される。
これは、複数のタスクやドメインにわたる広範なアプリケーションに対するTAPOの可能性を強調します。
さらに分析した結果,外部ガイダンスの導入は推論動作の説明可能性や出力可読性の向上に優れる強力な推論モデルを生み出すことが明らかとなった。
関連論文リスト
- Answer First, Reason Later: Aligning Search Relevance via Mode-Balanced Reinforcement Learning [7.006180736433431]
低レイテンシと高パフォーマンスを実現する検索関連モデルを構築することは、検索業界において長年の課題である。
我々は,新しいtextbfAnswer-First, Reason Later(AFRL)パラダイムを提案する。
このパラダイムでは、モデルが第1のトークンで決定的な関連性スコアを出力し、続いて構造化された論理的説明を行う必要がある。
論文 参考訳(メタデータ) (2026-02-10T17:28:12Z) - Online Finetuning Decision Transformers with Pure RL Gradients [11.215352918313577]
決定変換器(DT)は、シーケンシャルな意思決定のための強力なフレームワークとして登場した。
純粋強化学習勾配を用いた決定変換器のオンライン微調整を可能にする新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-01-01T02:17:18Z) - Tool Zero: Training Tool-Augmented LLMs via Pure RL from Scratch [63.40752011615843]
ツール強化言語モデルのトレーニングは、複雑なタスクの能力を高めるための有望なアプローチとして登場した。
規則に基づく強化学習のための動的一般化誘導型報酬設計を提案する。
本研究では,SFTモデルとRL-with-SFTモデルと比較して7%以上の性能向上を実現していることを示す。
論文 参考訳(メタデータ) (2025-11-02T16:33:45Z) - Perception-Aware Policy Optimization for Multimodal Reasoning [79.56070395437898]
現在のマルチモーダル推論における誤りの主な原因は、視覚入力の知覚にある。
提案するPAPOは,モデルが推論を学習しながら知覚を学習することを奨励する,新しいポリシー勾配アルゴリズムである。
知覚誤りの30.5%が有意に減少し,PAPOによる知覚能力の向上が示唆された。
論文 参考訳(メタデータ) (2025-07-08T23:22:34Z) - ExPO: Unlocking Hard Reasoning with Self-Explanation-Guided Reinforcement Learning [12.83211408922535]
強化学習スタイルのポストトレーニングは、報酬や選好信号に基づいてモデル出力を最適化することで推論を改善する。
GRPOスタイルのアプローチでは、結果ベースの検証によってラベル付けされた自己生成サンプルを使用することでこれを実装している。
提案手法は, 基本的回答を条件に, 単純でモジュール化されたフレームワークである。
論文 参考訳(メタデータ) (2025-07-03T17:44:55Z) - Vision-EKIPL: External Knowledge-Infused Policy Learning for Visual Reasoning [17.421901873720156]
本稿では,textbfVision-EKIPLと呼ばれる新しいRLフレームワークを提案する。
RLトレーニングプロセス中に外部補助モデルによって生成された高品質なアクションを導入し、ポリシーモデルの最適化を導く。
最先端(SOTA)と比較して、Reason-RFT-CoTベンチマークで最大5%の性能改善を実現している。
論文 参考訳(メタデータ) (2025-06-07T16:37:46Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [82.43575191712726]
本稿では,強化学習が推論に与える影響を明らかにするための,きめ細かい分析フレームワークを提案する。
本フレームワークは,RLトレーニングの恩恵を受けると仮定された重要な要素を具体的に調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - Diffusion Guidance Is a Controllable Policy Improvement Operator [98.11511661904618]
CFGRLは教師付き学習の単純さで訓練されているが、データ内のポリシーをさらに改善することができる。
オフラインのRLタスクでは、信頼性の高いトレンドが観察されます -- ガイダンスの重み付けの増加によって、パフォーマンスが向上します。
論文 参考訳(メタデータ) (2025-05-29T14:06:50Z) - Training Large Language Models to Reason via EM Policy Gradient [0.27195102129094995]
LLM推論を強化するために、政治以外の強化学習アルゴリズムEM Policy Gradientを導入する。
GSM8KとMATH(HARD)データセットに対するEM Policy Gradientの有効性を評価する。
本手法で微調整したモデルでは, サブプロブレム分解, 自己検証, バックトラッキングなどの認知行動を示す。
論文 参考訳(メタデータ) (2025-04-24T01:31:05Z) - Effectively Controlling Reasoning Models through Thinking Intervention [41.38412282063417]
Reasoning-enhanced large language model (LLM) は、最終回答を生成する前に、中間推論ステップを明示的に生成する。
本稿では,LLMの内部推論プロセスを明示的に導くための新しいパラダイムであるThinking Interventionを提案する。
論文 参考訳(メタデータ) (2025-03-31T17:50:13Z) - Enhancing LLM Reasoning with Iterative DPO: A Comprehensive Empirical Investigation [29.579349371114702]
DPO(Direct Preference Optimization)は、大規模言語モデル(LLM)のための強化学習(RL)に代わる費用効率の良い代替手段である。
粗いフィルタ付き1ラウンドのDPOが数学的推論性能を大幅に向上させることを示す。
単純な検証可能な報奨により,計算オーバーヘッドを大幅に低減したRLレベルの性能を実現する。
論文 参考訳(メタデータ) (2025-03-17T06:28:25Z) - A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。
人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。
直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文 参考訳(メタデータ) (2025-03-12T08:45:15Z) - Are Expressive Models Truly Necessary for Offline RL? [18.425797519857113]
シークエンシャルモデリングでは、適切なポリシー性能を確保するために、軌道データの長い地平線を越えて正確なダイナミクスを捉える必要がある。
浅層2層モデルほど単純な軽量モデルは、正確な動的一貫性と逐次モデリングエラーを著しく低減できることを示す。
論文 参考訳(メタデータ) (2024-12-15T17:33:56Z) - On the Modeling Capabilities of Large Language Models for Sequential Decision Making [52.128546842746246]
大規模な事前訓練されたモデルでは、推論や計画タスクのパフォーマンスがますます向上している。
我々は、直接的または間接的に、意思決定ポリシーを作成する能力を評価する。
未知の力学を持つ環境において、合成データを用いた微調整LDMが報酬モデリング能力を大幅に向上させる方法について検討する。
論文 参考訳(メタデータ) (2024-10-08T03:12:57Z) - Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning [5.487210426671288]
本研究では,小規模LMの推論能力が自己学習によって向上できることを実証する。
また、従来の自己学習は、直接選好最適化(Direct Preference Optimization)と呼ばれる選好学習アルゴリズムによってさらに強化できることを示す。
論文 参考訳(メタデータ) (2024-07-25T17:59:16Z) - Exploratory Preference Optimization: Harnessing Implicit Q*-Approximation for Sample-Efficient RLHF [82.7679132059169]
人間のフィードバックから強化学習が言語モデルのアライメントのための中心的なツールとして登場した。
我々は、RLHFにおけるオンライン探索のための新しいアルゴリズム、Exploratory Preference Optimization (XPO)を提案する。
XPOは証明可能な最強の保証と有望な経験的パフォーマンスを享受しています。
論文 参考訳(メタデータ) (2024-05-31T17:39:06Z) - Model Extrapolation Expedites Alignment [135.12769233630362]
本研究では,人選好によるアライメントトレーニングを迅速化するExPOという手法を提案する。
我々は、ExPOがトレーニングされたDPOモデルを20%のステップで強化し、完全に訓練されたモデルを上回ることを実証した。
ExPO は AlpacaEval 2.0 と MT-Bench ベンチマークにおいて,既存のオープンソース LLM を特に改善している。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。