論文の概要: ReasonBridge: Efficient Reasoning Transfer from Closed to Open-Source Language Models
- arxiv url: http://arxiv.org/abs/2506.22865v1
- Date: Sat, 28 Jun 2025 12:22:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.609161
- Title: ReasonBridge: Efficient Reasoning Transfer from Closed to Open-Source Language Models
- Title(参考訳): ReasonBridge: クローズドからオープンソース言語モデルへの効率的な推論移行
- Authors: Ziqi Zhong, Xunzhu Tang,
- Abstract要約: 本稿では、強力なクローズドソースからオープンソースモデルへの推論能力を効率的に伝達する手法であるReasonBridgeを紹介する。
我々は、難易度、多様性、品質を重視した、1,000の慎重にキュレートされた推論トレースしか持たない、カスタマイズされたデータセットReason1Kを開発した。
総合的な評価によると、ReasonBridgeはベンチマークタスクにおいて、オープンソースモデルの推論能力を最大23%改善する。
- 参考スコア(独自算出の注目度): 1.125423117145132
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Large Language Models (LLMs) have revealed a significant performance gap between closed-source and open-source models, particularly in tasks requiring complex reasoning and precise instruction following. This paper introduces ReasonBridge, a methodology that efficiently transfers reasoning capabilities from powerful closed-source to open-source models through a novel hierarchical knowledge distillation framework. We develop a tailored dataset Reason1K with only 1,000 carefully curated reasoning traces emphasizing difficulty, diversity, and quality. These traces are filtered from across multiple domains using a structured multi-criteria selection algorithm. Our transfer learning approach incorporates: (1) a hierarchical distillation process capturing both strategic abstraction and tactical implementation patterns, (2) a sparse reasoning-focused adapter architecture requiring only 0.3% additional trainable parameters, and (3) a test-time compute scaling mechanism using guided inference interventions. Comprehensive evaluations demonstrate that ReasonBridge improves reasoning capabilities in open-source models by up to 23% on benchmark tasks, significantly narrowing the gap with closed-source models. Notably, the enhanced Qwen2.5-14B outperforms Claude-Sonnet3.5 on MATH500 and matches its performance on competition-level AIME problems. Our methodology generalizes effectively across diverse reasoning domains and model architectures, establishing a sample-efficient approach to reasoning enhancement for instruction following.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、特に複雑な推論と正確な指示を必要とするタスクにおいて、クローズドソースモデルとオープンソースモデルの間に大きなパフォーマンスギャップがあることを明らかにしている。
本稿では,強力なクローズドソースからオープンソースモデルへの推論能力を,新しい階層的知識蒸留フレームワークを通じて効率的に伝達する手法であるReasonBridgeを紹介する。
我々は、難易度、多様性、品質を重視した、1,000の慎重にキュレートされた推論トレースしか持たない、カスタマイズされたデータセットReason1Kを開発した。
これらのトレースは、構造化多重基準選択アルゴリズムを用いて、複数のドメインからフィルタリングされる。
トランスファーラーニングアプローチでは,(1)戦略的抽象化と戦術的実装パターンの両方を抽出した階層的蒸留プロセス,(2)訓練可能なパラメータをわずか0.3%追加するスパース推論型アダプタアーキテクチャ,(3)誘導推論介入を用いたテスト時間計算スケーリング機構が組み込まれている。
総合的な評価は、ReasonBridgeがベンチマークタスクで最大23%までオープンソースモデルの推論能力を改善し、クローズドソースモデルとのギャップを大幅に狭めることを示している。
特に、強化されたQwen2.5-14Bは、MATH500でClaude-Sonnet3.5より優れており、競合レベルのAIME問題での性能と一致している。
提案手法は,多種多様な推論領域とモデルアーキテクチャにまたがって効果的に一般化し,従う命令の推論強化のためのサンプル効率の高いアプローチを確立する。
関連論文リスト
- Boosting Open-Source LLMs for Program Repair via Reasoning Transfer and LLM-Guided Reinforcement Learning [7.850001507980097]
いくつかのクローズドソース LLM は、プログラム修復タスクにおいて、一貫してオープンソースの代替品より優れている。
本稿では,この性能ギャップを著しく狭める新しい3段階の手法である修復性を紹介する。
論文 参考訳(メタデータ) (2025-06-04T13:13:58Z) - Feature Alignment-Based Knowledge Distillation for Efficient Compression of Large Language Models [4.737806982257592]
本研究では,大規模言語モデルと特徴アライメントに基づく知識蒸留アルゴリズムを提案する。
提案モデルは, パープレキシティ, BLEU, ROUGE, CER などの評価指標を用いて, 最先端の GPT-4 モデルに非常に近い性能を示す。
論文 参考訳(メタデータ) (2024-12-27T04:37:06Z) - A NotSo Simple Way to Beat Simple Bench [0.0]
本稿では,大規模言語モデル(LLM)における推論能力向上のための新しい枠組みを提案する。
モデル精度とロバスト性を改善するために,グローバルな整合性チェックと組み合わせたマルチステッププロンプト戦略を提案する。
クロードは論理的整合性を維持するのに優れ, GPT-4oは探索的創造性を示すが, 曖昧なプロンプトに苦しむ。
論文 参考訳(メタデータ) (2024-12-12T16:04:31Z) - A Comparative Study on Reasoning Patterns of OpenAI's o1 Model [69.08287909042421]
OpenAIのo1モデルは、ほとんどのデータセットで最高のパフォーマンスを実現しています。
また、いくつかの推論ベンチマークについて詳細な分析を行う。
論文 参考訳(メタデータ) (2024-10-17T15:09:03Z) - Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [49.362750475706235]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - CodingTeachLLM: Empowering LLM's Coding Ability via AST Prior Knowledge [0.0]
我々は,コーディング学習用に設計された大規模言語モデル(LLM)であるCodingTeachLLMを紹介する。
本モデルは,学習知識の構造的分解と漸進的指導によるアウトプットを実現する。
当社のモデルは,オープンソースモデルと比較して,コード能力の最先端性も達成している。
論文 参考訳(メタデータ) (2024-03-13T05:38:39Z) - Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models [102.72940700598055]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。
入力の摂動に頼らず、外部リソースの導入を避ける手法を開発した。
私たちのトレーニングアプローチでは、思考の連鎖の中で特定のトークンをランダムにマスクします。
論文 参考訳(メタデータ) (2024-03-04T16:21:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。