論文の概要: Reasoning with Reinforced Functional Token Tuning
- arxiv url: http://arxiv.org/abs/2502.13389v1
- Date: Wed, 19 Feb 2025 02:59:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 14:00:02.039321
- Title: Reasoning with Reinforced Functional Token Tuning
- Title(参考訳): Reinforced Functional Token Tuning による推論
- Authors: Kongcheng Zhang, Qi Yao, Baisheng Lai, Jiaxing Huang, Wenkai Fang, Dacheng Tao, Mingli Song, Shunyu Liu,
- Abstract要約: 本稿では,大規模言語モデル(LLM)に自己学習能力を持たせるためにRFTT(Reinforced Functional Token Tuning)を提案する。
RFTTは、学習可能な関数トークンの豊富なセットをモデル語彙に直接埋め込んで、多様な人間のような推論行動によるチェーン・オブ・思想の構築を可能にする。
- 参考スコア(独自算出の注目度): 70.96651128307985
- License:
- Abstract: In this work, we propose Reinforced Functional Token Tuning (RFTT), a novel reinforced fine-tuning framework that empowers Large Language Models (LLMs) with self-play learn-to-reason capabilities. Unlike prior prompt-driven reasoning efforts, RFTT embeds a rich set of learnable functional tokens (e.g., <analyze>, <verify>, <refine>) directly into the model vocabulary, enabling chain-of-thought construction with diverse human-like reasoning behaviors. Specifically, RFTT comprises two phases: (1) supervised fine-tuning performs prompt-driven tree search to obtain self-generated training data annotated with functional tokens, which warms up the model to learn these tokens for reasoning; and (2) online reinforcement learning further allows the model to explore different reasoning pathways through functional token sampling without relying on prompts, thereby facilitating effective self-improvement for functional reasoning. Extensive experiments demonstrate the superiority of the proposed RFTT on mathematical benchmarks, significantly boosting Qwen-2.5-7B-Instruct (70.6% to 79.8%) and LLaMA-3.1-8B-Instruct (32.2% to 60.2%) on the MATH dataset. Moreover, the performance of RFTT consistently improves with more search rollouts at inference time. Our code is available at https://github.com/sastpg/RFTT.
- Abstract(参考訳): 本研究では,Large Language Models (LLMs) を自己再生学習能力で強化したファインチューニングフレームワークであるReinforced Functional Token Tuning (RFTT)を提案する。
従来のプロンプト駆動推論とは異なり、RFTTは学習可能な関数トークン(eg, <analyze>, <verify>, <refine>)の豊富なセットをモデル語彙に直接埋め込んでおり、多様な人間的な推論行動によるチェーン・オブ・シントの構築を可能にしている。
具体的には、(1)教師付き微調整により、機能的トークンを付加した自己生成訓練データを得るために、プロンプト駆動のツリーサーチを行い、それによって、これらのトークンを推論のために学習するためのモデルをウォームアップさせ、(2)オンライン強化学習により、プロンプトに頼ることなく、機能的トークンサンプリングを通じて異なる推論経路を探索し、機能的推論の効果的な自己改善を容易にする。
大規模な実験では、提案されたRFTTの数学ベンチマークにおける優位性が示され、Qwen-2.5-7B-インストラクト(70.6%から79.8%)とLLaMA-3.1-8B-インストラクト(32.2%から60.2%)が大幅に向上した。
さらに、RFTTの性能は、推論時により多くの検索ロールアウトで一貫して改善される。
私たちのコードはhttps://github.com/sastpg/RFTT.comで利用可能です。
関連論文リスト
- SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models [88.29990536278167]
SPaRは、木探索の自己制限を統合したセルフプレイフレームワークで、気を散らさずに有効かつ同等の選好ペアを得る。
実験により,SPaRで誘導された3回の反復で訓練されたLLaMA3-8Bモデルが,一般機能を失うことなくIFEvalベンチマークでGPT-4-Turboを上回った。
論文 参考訳(メタデータ) (2024-12-16T09:47:43Z) - The Surprising Effectiveness of Test-Time Training for Abstract Reasoning [64.36534512742736]
モデル推論能力向上のためのメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
TTTはARCタスクのパフォーマンスを大幅に改善し、ベースとなる微調整モデルと比較して最大6倍の精度向上を実現した。
本研究は,ニューラルネットワークモデルにおける抽象的推論改善の道筋として,明示的な記号探索が唯一の道ではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-11T18:59:45Z) - Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。
DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - Unlock the Correlation between Supervised Fine-Tuning and Reinforcement Learning in Training Code Large Language Models [12.656574142412484]
本研究では,教師付き微調整と強化学習の相関関係の解明を試みる。
SFTの一般化には原子関数と合成関数の両方が不可欠である。
論文 参考訳(メタデータ) (2024-06-14T03:39:01Z) - Phased Instruction Fine-Tuning for Large Language Models [12.037895935630882]
Phased IFT(Phased Instruction Fine-Tuning)を提案する。
GPT-4を用いて命令の難易度を評価し、命令データを難易度の高いサブセットに分割し、これらのサブセット上でモデルを逐次訓練する。
アルパカデータを用いたLlama-2 7B/13B/70B、Llama3 8/70B、Mistral-7Bモデルによる実験では、フェーズドIFTは1オフIFTよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-06-01T04:25:26Z) - Latent Template Induction with Gumbel-CRFs [107.17408593510372]
文生成のための潜在テンプレートを推論するための構造化変分オートエンコーダについて検討する。
構造化推論ネットワークとして、トレーニング中に解釈可能なテンプレートを学習することを示す。
論文 参考訳(メタデータ) (2020-11-29T01:00:57Z) - DAIS: Automatic Channel Pruning via Differentiable Annealing Indicator
Search [55.164053971213576]
畳み込みニューラルネットワークは,計算オーバーヘッドが大きいにもかかわらず,コンピュータビジョンタスクの実行において大きな成功を収めている。
構造的(チャネル)プルーニングは、通常、ネットワーク構造を保ちながらモデルの冗長性を低減するために適用される。
既存の構造化プルーニング法では、手作りのルールが必要であり、これは大きなプルーニング空間に繋がる可能性がある。
論文 参考訳(メタデータ) (2020-11-04T07:43:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。