論文の概要: Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning
- arxiv url: http://arxiv.org/abs/2505.14684v1
- Date: Tue, 20 May 2025 17:59:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.674131
- Title: Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning
- Title(参考訳): マインド・ザ・ギャップ(動画)
- Authors: Haolei Xu, Yuchen Yan, Yongliang Shen, Wenqi Zhang, Guiyang Hou, Shengpei Jiang, Kaitao Song, Weiming Lu, Jun Xiao, Yueting Zhuang,
- Abstract要約: 本研究では,跳躍を自動的に検出し,中間的推論ステップを欠くことを目的としたCoT Thought Leap Bridge Taskを提案する。
ブリッジされたデータセットに微調整されたモデルが、元のデータセットでトレーニングされたモデルよりも一貫して優れていることを示す。
提案手法は, 蒸留データを効果的に向上させ, 強化学習の出発点として優れたものを提供する。
- 参考スコア(独自算出の注目度): 54.65050470296886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have achieved remarkable progress on mathemati-cal tasks through Chain-of-Thought (CoT) reasoning. However, existing mathematical CoT datasets often suffer from Thought Leaps due to experts omitting intermediate steps, which negatively impacts model learning and generalization. We propose the CoT Thought Leap Bridge Task, which aims to automatically detect leaps and generate missing intermediate reasoning steps to restore the completeness and coherence of CoT. To facilitate this, we constructed a specialized training dataset called ScaleQM+, based on the structured ScaleQuestMath dataset, and trained CoT-Bridge to bridge thought leaps. Through comprehensive experiments on mathematical reasoning benchmarks, we demonstrate that models fine-tuned on bridged datasets consistently outperform those trained on original datasets, with improvements of up to +5.87% on NuminaMath. Our approach effectively enhances distilled data (+3.02%) and provides better starting points for reinforcement learning (+3.1%), functioning as a plug-and-play module compatible with existing optimization techniques. Furthermore, CoT-Bridge demonstrate improved generalization to out-of-domain logical reasoning tasks, confirming that enhancing reasoning completeness yields broadly applicable benefits.
- Abstract(参考訳): 大規模言語モデル (LLM) は、Chain-of-Thought (CoT) 推論を通じて、マテマティカルなタスクにおいて顕著な進歩を遂げた。
しかしながら、既存の数学的CoTデータセットは、モデル学習と一般化に悪影響を及ぼす中間ステップを省略する専門家のために、Thought Leapsに悩まされることが多い。
提案するCoT Thought Leap Bridge Taskは,自動的に跳躍を検知し,CoTの完全性とコヒーレンスを回復するための中間的推論ステップを欠くことを目的としている。
これを容易にするために、構造化されたScaleQuestMathデータセットに基づいてScaleQM+と呼ばれる特別なトレーニングデータセットを構築し、思考の跳躍をブリッジするためにCoT-Bridgeをトレーニングした。
数学的推論ベンチマークに関する包括的な実験を通じて、橋渡しデータセット上で微調整されたモデルが、元のデータセットでトレーニングされたモデルより一貫して優れており、NuminaMathでは最大で5.87%向上していることを示した。
提案手法は蒸留データ(+3.02%)を効果的に強化し,既存の最適化手法と互換性のあるプラグアンドプレイモジュールとして機能する強化学習のための出発点(+3.1%)を改良する。
さらに、CoT-Bridgeは、領域外論理的推論タスクへの一般化の改善を実証し、推論完全性の向上が広く適用可能な利点をもたらすことを確認した。
関連論文リスト
- Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Guiding Language Model Reasoning with Planning Tokens [122.43639723387516]
大規模言語モデル(LLM)は、最近、複雑な推論タスクを実行する能力に対して、かなりの関心を集めている。
より構造的なチェーン・オブ・シークレット・ステップの創出を促す階層的な生成手法を提案する。
提案手法では、トレーニング可能なパラメータ(0.001%)の無視可能な増加が必要であり、完全な微調整か、よりパラメータ効率の良いスキームで適用することができる。
論文 参考訳(メタデータ) (2023-10-09T13:29:37Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。