論文の概要: Tool-Augmented Hybrid Ensemble Reasoning with Distillation for Bilingual Mathematical Problem Solving
- arxiv url: http://arxiv.org/abs/2512.19093v1
- Date: Mon, 22 Dec 2025 07:02:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.647682
- Title: Tool-Augmented Hybrid Ensemble Reasoning with Distillation for Bilingual Mathematical Problem Solving
- Title(参考訳): 両言語数学的問題解決のための拡張型ハイブリッドアンサンブル推論
- Authors: Peiqing Lu, Yuan Zhang, Haoyun Zhang, Jiasen Zheng, Kejian Tong, Wenjun Wu,
- Abstract要約: 大規模な言語モデルは、しばしば言語をうまく扱うが、正確な計算では弱い。
本稿では,NuminaMath-7B-TIR,GPT-4o,Mistral-7Bを用いて推論と計算を結合するフレームワークHERALDを提案する。
HERALDは適応的ルーティング、ツールベースの強化学習、知識蒸留を用いて異なる推論経路を接続する。
- 参考スコア(独自算出の注目度): 6.619517175293594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bilingual mathematical problem solving needs a clear link between language reasoning and symbolic calculation. Large language models often handle language well but are weak in accurate computation. This paper presents HERALD (Hybrid Ensemble Reasoning with Adaptive Learning and Distillation), a framework that joins reasoning and calculation using NuminaMath-7B-TIR, GPT-4o, and Mistral-7B. HERALD uses adaptive routing, tool-based reinforcement learning, and knowledge distillation to connect different reasoning paths. Confidence calibration keeps weighting stable, and dual-path checking keeps results correct. Reinforcement learning controls tool use to cut redundancy, and distillation lowers delay without hurting accuracy. The system shows that combining symbolic checking, adaptive ensembles, and bilingual fine-tuning helps achieve both fluent reasoning and precise calculation. HERALD offers a practical solution for multilingual mathematical reasoning with better accuracy, stability, and clarity.
- Abstract(参考訳): バイリンガル数学の問題解決には、言語推論と記号計算の間に明確なリンクが必要である。
大規模な言語モデルは、しばしば言語をうまく扱うが、正確な計算では弱い。
本稿では,NuminaMath-7B-TIR,GPT-4o,Mistral-7Bを用いた推論と計算を結合するフレームワークであるHybrid Ensemble Reasoning with Adaptive Learning and Distillationを提案する。
HERALDは適応的ルーティング、ツールベースの強化学習、知識蒸留を用いて異なる推論経路を接続する。
信頼度校正は安定しており、デュアルパスチェックは結果を正しく保っている。
強化学習ツールは冗長性を減らし、蒸留により精度を損なうことなく遅延を低減させる。
このシステムは,記号チェック,適応アンサンブル,およびバイリンガル微調整を組み合わせることで,流動的推論と高精度な計算の両立を図っている。
HERALDは、精度、安定性、明快さを向上した多言語数学的推論のための実用的なソリューションを提供する。
関連論文リスト
- From Proof to Program: Characterizing Tool-Induced Reasoning Hallucinations in Large Language Models [18.072434766310458]
ツール拡張言語モデル(TaLM)は、パラメトリック能力を超えた問題を解決するために外部ツールを呼び出すことができる。
ツールが正しく選択され、実行されたとしても、TaLMは推論の代用としてツール出力を扱います。
論文 参考訳(メタデータ) (2025-11-14T02:21:34Z) - DART: Difficulty-Adaptive Reasoning Truncation for Efficient Large Language Models [36.962276192354174]
textbfDARTは、問題の難易度に応じて思考長を調整する。
textbfTruncationフレームワークは、いつ考えるのをやめるかを学ぶ
論文 参考訳(メタデータ) (2025-11-03T02:41:20Z) - Bridging Formal Language with Chain-of-Thought Reasoning to Geometry Problem Solving [9.550050299909184]
我々はChain-of-Thought(CoT)とフォーマル言語を統合する新しいアプローチを提案する。
このモデルは、ソルバ実行可能コードの漸進的な排出を伴う自然言語推論をインターリーブする。
Qwen2.5-VL-7Bに基づいて構築された新しいモデルGF-Reasonerは、標準GPSベンチマークで最大15%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-08-12T17:26:23Z) - Agentic-R1: Distilled Dual-Strategy Reasoning [58.73951532294446]
現在のロングチェーン・オブ・ソート(ロングCoT)モデルは数学的推論において優れているが、遅くてエラーを起こしやすい自然言語トレースに依存している。
複数の教師の補完的推論戦略を統合された学生モデルに蒸留する微調整フレームワークであるDualDistillを導入する。
本手法は,計算集約型ベンチマークと標準ベンチマークの両方を含むタスクの精度を向上する。
論文 参考訳(メタデータ) (2025-07-08T06:35:16Z) - Thinkless: LLM Learns When to Think [57.857534644932194]
推論モデル(Reasoning Language Models)は、複雑な論理的推論を必要とするタスクにおいて顕著な性能を示す。
我々は,LLMが短文推論と長文推論を適応的に選択できる学習可能なフレームワークであるThinklessを提案する。
Minerva Algebra、MATH-500、GSM8Kなどのベンチマークでは、Thinklessはロングチェーン思考の使用を50%から90%削減することができる。
論文 参考訳(メタデータ) (2025-05-19T17:24:16Z) - Subtle Errors in Reasoning: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは、事前定義された微妙なエラーをピボットトークンに注入する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - No Train but Gain: Language Arithmetic for training-free Language Adapters enhancement [59.37775534633868]
本稿では,学習不要な後処理が可能な言語演算法を提案する。
提案手法の有効性を,MAD-Xに基づく言語間スキームの3つの下流課題に適用した。
論文 参考訳(メタデータ) (2024-04-24T08:52:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。