論文の概要: CoT-Evo: Evolutionary Distillation of Chain-of-Thought for Scientific Reasoning
- arxiv url: http://arxiv.org/abs/2510.13166v2
- Date: Thu, 16 Oct 2025 02:13:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 11:58:42.083793
- Title: CoT-Evo: Evolutionary Distillation of Chain-of-Thought for Scientific Reasoning
- Title(参考訳): CoT-Evo:科学推論のためのチェーン・オブ・ワットの進化的蒸留
- Authors: Kehua Feng, Keyan Ding, Zhihui Zhu, Lei Liang, Qiang Zhang, Huajun Chen,
- Abstract要約: 先進的な大規模言語モデル(LLM)からのCoT蒸留は、一般的な推論タスクにおいて有効であることが証明されている。
しかし、先進的なモデルでさえ、誤った、あるいは表面的な推論をしばしば生み出す科学領域では苦戦している。
この問題を解決するために, 進化的CoT蒸留フレームワークであるCoT-Evoを提案する。
- 参考スコア(独自算出の注目度): 63.44477226386808
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While chain-of-thought (CoT) distillation from advanced large language models (LLMs) has proven effective in general reasoning tasks, it struggles in scientific domains where even advanced models often produce incorrect or superficial reasoning due to high complexity and specialized knowledge requirements. Directly distilling from such flawed outputs results in low-quality training data and limits the performance of smaller student models. To overcome this, we propose CoT-Evo, an evolutionary CoT distillation framework. It begins by constructing a diverse pool of reasoning trajectories from multiple LLM thinkers, enriches them with automatically retrieved domain knowledge, and iteratively refines the trajectories using novelty-driven selection, reflective recombination and mutation. The refinement is guided by a fitness function that evaluates answer correctness, coherence, and effective knowledge utilization. This results in a high-quality CoT dataset tailored for scientific reasoning. We employ this evolved dataset to fine-tune a compact model, which achieves state-of-the-art performance on scientific reasoning benchmarks. Our work establishes a scalable approach to synthesizing high-fidelity scientific reasoning data from diverse and fallible LLMs.
- Abstract(参考訳): 先進的な大規模言語モデル (LLM) からのチェーン・オブ・シント (CoT) 蒸留は、一般的な推論タスクにおいて有効であることが証明されているが、高度なモデルでさえ、高い複雑さと専門知識要求のために誤った、あるいは表面的な推論を生成する科学領域では困難である。
このような欠陥のある出力を直接蒸留すると、低品質のトレーニングデータとなり、より小さな学生モデルの性能が制限される。
これを解決するために,進化的CoT蒸留フレームワークであるCoT-Evoを提案する。
最初は、複数のLLM思考者から様々な推論軌道のプールを構築し、自動的に取得されたドメイン知識でそれらを豊かにし、新規選択、反射的組換え、突然変異を用いて軌道を反復的に洗練することから始まる。
この改善は、回答の正しさ、一貫性、効果的な知識利用を評価するフィットネス機能によって導かれる。
これにより、科学的推論に適した高品質なCoTデータセットが得られる。
我々は、この進化したデータセットを用いて、科学的推論ベンチマークで最先端のパフォーマンスを達成するコンパクトモデルを微調整する。
我々の研究は、多種多様かつフォールブルなLCMから高忠実な科学的推論データを合成するためのスケーラブルなアプローチを確立している。
関連論文リスト
- Atomic Reasoning for Scientific Table Claim Verification [83.14588611859826]
非専門家は、その高い情報密度と認識される信頼性のために、科学的表に基づく主張を誤解させるおそれがある。
既存のテーブルクレーム検証モデル、例えば最先端の大規模言語モデル(LLM)は、しばしば精密なきめ細かい推論に苦しむ。
認知負荷理論に触発されて、表に基づく主張を解釈するモデルの能力を高めるには、認知負荷を減らす必要がある。
論文 参考訳(メタデータ) (2025-06-08T02:46:22Z) - Self-Evolved Preference Optimization for Enhancing Mathematical Reasoning in Small Language Models [17.673293240849787]
我々は、小言語モデル(SLM)における推論を強化する自己進化型データ生成パイプラインSPHEREを紹介する。
SPHEREは、 (i) 自己生成(Self-Generation)、 (ii) 自己補正(Self-Correction)、 (iii) 多様性誘導(diversity induction)、そして、複数の有効な推論軌道を通じて堅牢性を改善する。
本研究では,SPHERE学習モデルがベースバージョンよりも大幅に向上し,特定のベンチマークでGPT-4oにマッチすることを示す。
論文 参考訳(メタデータ) (2025-03-04T14:43:25Z) - T-SciQ: Teaching Multimodal Chain-of-Thought Reasoning via Mixed Large
Language Model Signals for Science Question Answering [59.63860993280275]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
LLM信号を用いた科学質問応答の指導を目的とした,T-SciQと呼ばれる新しい手法を提案する。
提案手法は,ScienceQAベンチマークで96.18%の精度で,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-05T11:56:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。