論文の概要: QFFT, Question-Free Fine-Tuning for Adaptive Reasoning
- arxiv url: http://arxiv.org/abs/2506.12860v1
- Date: Sun, 15 Jun 2025 14:21:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:47.007891
- Title: QFFT, Question-Free Fine-Tuning for Adaptive Reasoning
- Title(参考訳): 適応推論のためのQFFT, 質問なしファインチューニング
- Authors: Wanlong Liu, Junxiao Xu, Fei Yu, Yukang Lin, Ke Ji, Wenyu Chen, Yan Xu, Yasheng Wang, Lifeng Shang, Benyou Wang,
- Abstract要約: Question-Free Fine-Tuning (QFFT)は、トレーニング中に入力された質問を取り除き、Long CoTレスポンスからのみ学習する、微調整のアプローチである。
QFFTは平均応答長を50%以上削減し、性能はSupervised Fine-Tuning (SFT)に匹敵する。
- 参考スコア(独自算出の注目度): 46.60300066127707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Long Chain-of-Thought (CoT) reasoning models have improved performance on complex tasks, but they suffer from overthinking, which generates redundant reasoning steps, especially for simple questions. This paper revisits the reasoning patterns of Long and Short CoT models, observing that the Short CoT patterns offer concise reasoning efficiently, while the Long CoT patterns excel in challenging scenarios where the Short CoT patterns struggle. To enable models to leverage both patterns, we propose Question-Free Fine-Tuning (QFFT), a fine-tuning approach that removes the input question during training and learns exclusively from Long CoT responses. This approach enables the model to adaptively employ both reasoning patterns: it prioritizes the Short CoT patterns and activates the Long CoT patterns only when necessary. Experiments on various mathematical datasets demonstrate that QFFT reduces average response length by more than 50\%, while achieving performance comparable to Supervised Fine-Tuning (SFT). Additionally, QFFT exhibits superior performance compared to SFT in noisy, out-of-domain, and low-resource scenarios.
- Abstract(参考訳): CoT(Long Chain-of-Thought)推論モデルの最近の進歩は、複雑なタスクのパフォーマンスを改善したが、特に単純な質問に対して冗長な推論ステップを生成する過度な思考に悩まされている。
本稿では,ショート CoT パターンが簡潔推論を効率的に行うのに対して,ロング CoT パターンはショート CoT パターンが苦労する困難なシナリオにおいて優れており,ロング CoT モデルとショート CoT モデルの推論パターンを再検討する。
モデルが両方のパターンを活用できるように、トレーニング中の入力質問を除去し、Long CoT応答からのみ学習する微調整アプローチであるQFFT(Qarguy-Free Fine-Tuning)を提案する。
このアプローチにより、モデルは両方の推論パターンを適応的に採用することができる。ショートCoTパターンを優先順位付けし、必要であればロングCoTパターンをアクティベートする。
様々な数学的データセットの実験により、QFFTは平均応答長を50%以上削減し、スーパービジョンファインチューニング(SFT)に匹敵する性能を達成した。
さらにQFFTは、ノイズ、ドメイン外、低リソースシナリオにおいて、SFTよりも優れたパフォーマンスを示している。
関連論文リスト
- Long-Short Chain-of-Thought Mixture Supervised Fine-Tuning Eliciting Efficient Reasoning in Large Language Models [23.34070841541423]
LS-Mixture SFT(Long-Short Chain-of-Thought Mixture Supervised Fine-Tuning)を提案する。
LS-Mixture SFTでトレーニングしたモデルと直接SFTでトレーニングしたモデルでは,平均精度が2.3%向上した。
この研究は、教師付き微調整によって推論能力を持つ非推論モデルを実現するアプローチを提供する。
論文 参考訳(メタデータ) (2025-05-06T12:18:11Z) - Ada-R1: Hybrid-CoT via Bi-Level Adaptive Reasoning Optimization [86.56120216550232]
適応的で効率的な推論のための新しい2段階のフレームワークを提案する。
まず、長いCoTモデルと短いCoTモデルを組み合わせてハイブリッド推論モデルを構築する。
第二に、モデルに適切な推論スタイルを選択するための2段階の選好訓練を適用する。
論文 参考訳(メタデータ) (2025-04-30T14:01:45Z) - ShorterBetter: Guiding Reasoning Models to Find Optimal Inference Length for Efficient Reasoning [1.0416697066889342]
そこで本研究では,手動による指導を必要とせずに,推論モデルによる最適なCoT長の学習を可能にする,簡易かつ効果的な強化学習手法を提案する。
ShorterBetterは、ドメイン内およびドメイン外推論タスクの出力長を50%-80%削減する。
我々の推論トレース分析は、不要な反復、過剰な自己検証、代替品の過剰探索を減らし、ショーターベッターが推論トレースの構造を洗練することを示している。
論文 参考訳(メタデータ) (2025-04-30T07:04:19Z) - Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning [113.49074603075032]
近年の研究では、モデルをより長い思考の連鎖(CoTs)を通して考える時間を増やすことで、複雑な推論タスクにおいて大幅な改善が得られることが示されている。
より長いCoTによるスケーリングが、特定のドメインにおけるLarge Language Model(LLM)の推論性能を損なうかどうかを考察する。
論文 参考訳(メタデータ) (2025-02-25T10:48:05Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [51.631483479081645]
大規模言語モデル(LLM)は複雑な問題を分解するためにChain-of-Thought(CoT)推論を用いる。
本稿は、長いCoTがより優れていると仮定されることがしばしばあり、長いCoTが常に優れているとは限らない、と論じる。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。