論文の概要: Learning to Think: Information-Theoretic Reinforcement Fine-Tuning for LLMs
- arxiv url: http://arxiv.org/abs/2505.10425v2
- Date: Sun, 18 May 2025 07:34:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 12:45:56.166375
- Title: Learning to Think: Information-Theoretic Reinforcement Fine-Tuning for LLMs
- Title(参考訳): 思考の学習:LLMのための情報理論強化ファインチューニング
- Authors: Jingyao Wang, Wenwen Qiang, Zeen Song, Changwen Zheng, Hui Xiong,
- Abstract要約: 大規模言語モデル(LLM)は推論能力の進歩により複雑なタスクに優れる。
既存の手法は推論の有効性と計算効率のトレードオフを見落としている。
より少ないトークンで最適な推論を実現するために,学習から思考への学習を提案する。
- 参考スコア(独自算出の注目度): 25.03191529055168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) excel at complex tasks thanks to advances in reasoning abilities. However, existing methods overlook the trade-off between reasoning effectiveness and computational efficiency, often encouraging unnecessarily long reasoning chains and wasting tokens. To address this, we propose Learning to Think (L2T), an information-theoretic reinforcement fine-tuning framework for LLMs to make the models achieve optimal reasoning with fewer tokens. Specifically, L2T treats each query-response interaction as a hierarchical session of multiple episodes and proposes a universal dense process reward, i.e., quantifies the episode-wise information gain in parameters, requiring no extra annotations or task-specific evaluators. We propose a method to quickly estimate this reward based on PAC-Bayes bounds and the Fisher information matrix. Theoretical analyses show that it significantly reduces computational complexity with high estimation accuracy. By immediately rewarding each episode's contribution and penalizing excessive updates, L2T optimizes the model via reinforcement learning to maximize the use of each episode and achieve effective updates. Empirical results on various reasoning benchmarks and base models demonstrate the advantage of L2T across different tasks, boosting both reasoning effectiveness and efficiency.
- Abstract(参考訳): 大規模言語モデル(LLM)は推論能力の進歩により複雑なタスクに優れる。
しかし、既存の手法は推論効率と計算効率のトレードオフを見落としており、しばしば不要に長い推論連鎖と無駄なトークンを奨励している。
そこで我々は,L2T(Learning to Think)を提案する。L2T(Learning to Think)は,LLMのための情報理論強化微調整フレームワークである。
具体的には、L2Tは複数のエピソードの階層的なセッションとして各クエリとレスポンスの相互作用を扱い、汎用的な高密度なプロセス報酬、すなわち、追加のアノテーションやタスク固有の評価器を必要としないパラメータのエピソード単位の情報ゲインを定量化する。
本研究では,PAC-Bayes境界とFisher情報行列に基づいて,この報酬を迅速に推定する手法を提案する。
理論的解析により、高い推定精度で計算複雑性を著しく減少させることが示された。
各エピソードのコントリビューションを即座に報い、過剰な更新を罰することにより、L2Tは強化学習を通じてモデルを最適化し、各エピソードの使用を最大化し、効果的な更新を実現する。
様々な推論ベンチマークとベースモデルの実証的な結果は、様々なタスクにまたがるL2Tの利点を示し、推論の有効性と効率性を高める。
関連論文リスト
- Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - Offline Reinforcement Learning for LLM Multi-Step Reasoning [15.687002884103537]
OREO(Offline Reasoning Optimization)は,多段階推論の強化を目的としたオフライン強化学習手法である。
これにより、ペアワイズデータを収集する必要がなくなり、より優れたクレジット割り当てが可能になる。
マルチステップ推論ベンチマークでは、既存のオフライン学習手法を超越している。
論文 参考訳(メタデータ) (2024-12-20T18:49:45Z) - Rational Metareasoning for Large Language Models [5.5539136805232205]
大きな言語モデル(LLM)を使用するためのコアテクニックとして,推論への関与を促す声が上がっている。
本研究は,認知科学で用いられるメタレゾニングの計算モデルに基づく新しいアプローチを導入する。
我々は不必要な推論を罰することで計算の価値を組み込む報酬関数を開発する。
論文 参考訳(メタデータ) (2024-10-07T23:48:52Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。