論文の概要: Reasoning Relay: Evaluating Stability and Interchangeability of Large Language Models in Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2512.20647v1
- Date: Tue, 16 Dec 2025 02:56:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.529717
- Title: Reasoning Relay: Evaluating Stability and Interchangeability of Large Language Models in Mathematical Reasoning
- Title(参考訳): 推論リレー:数学的推論における大規模言語モデルの安定性と交換性の評価
- Authors: Leo Lu, Jonathan Zhang, Sean Chua, Spencer Kim, Kevin Zhu, Sean O'Brien, Vasu Sharma,
- Abstract要約: 部分的に完了した推論連鎖が他のモデルによって確実に継続できるかどうかを検討する。
トークンレベルのログ確率しきい値を使用して、ベースラインモデルから推論を早期、中、後期に切り離します。
我々の研究は、推論モデルの新たな行動特性としてのインターチェンジビリティを示唆している。
- 参考スコア(独自算出の注目度): 8.01259760303241
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-Thought (CoT) prompting has significantly advanced the reasoning capabilities of large language models (LLMs). While prior work focuses on improving model performance through internal reasoning strategies, little is known about the interchangeability of reasoning across different models. In this work, we explore whether a partially completed reasoning chain from one model can be reliably continued by another model, either within the same model family or across families. We achieve this by assessing the sufficiency of intermediate reasoning traces as transferable scaffolds for logical coherence and final answer accuracy. We interpret this interchangeability as a means of examining inference-time trustworthiness, probing whether reasoning remains both coherent and reliable under model substitution. Using token-level log-probability thresholds to truncate reasoning at early, mid, and late stages from our baseline models, Gemma-3-4B-IT and LLaMA-3.1-70B-Instruct, we conduct continuation experiments with Gemma-3-1B-IT and LLaMA-3.1-8B-Instruct to test intra-family and cross-family behaviors. Our evaluation pipeline leverages truncation thresholds with a Process Reward Model (PRM), providing a reproducible framework for assessing reasoning stability via model interchange. Evaluations with a PRM reveal that hybrid reasoning chains often preserve, and in some cases even improve, final accuracy and logical structure. Our findings point towards interchangeability as an emerging behavioral property of reasoning models, offering insights into new paradigms for reliable modular reasoning in collaborative AI systems.
- Abstract(参考訳): CoT(Chain-of-Thought)は大規模言語モデル(LLM)の推論能力を大幅に向上させた。
これまでの作業では、内部推論戦略によるモデルパフォーマンスの改善に重点を置いていたが、異なるモデル間での推論の交換性についてはほとんど分かっていない。
本研究では、あるモデルから部分的に完結した推論連鎖が、同じモデルファミリー内または家族間で、他のモデルによって確実に継続できるかどうかを考察する。
論理的コヒーレンスと最終的な解答精度の変換可能な足場として,中間的推論トレースの十分性を評価することで,これを実現できる。
我々は、この交換性を、推論時の信頼性を調べる手段として解釈し、推論がモデル置換の下で一貫性と信頼性の両方を維持しているかどうかを推測する。
基本モデルであるGemma-3-4B-ITとLLama-3.1-70B-Instructは,トークンレベルの対数確率しきい値を用いて推論を早期・中期・後期に切り離し,Gemma-3-1B-ITとLLama-3.1-8B-Instructを用いて,家族内および横断的な行動の連続実験を行う。
評価パイプラインは,プロセス・リワード・モデル(PRM)によるトラクションしきい値を活用し,モデル交換による推論安定性を評価するための再現可能なフレームワークを提供する。
PRMによる評価は、ハイブリッド推論連鎖がしばしば保存され、場合によっては最終的な精度と論理構造が向上することを示している。
我々の研究は、協調型AIシステムにおける信頼性の高いモジュラー推論のための新しいパラダイムに対する洞察を提供する、推論モデルの新たな行動特性としてのインターチェンジビリティを指している。
関連論文リスト
- Multi-Path Collaborative Reasoning via Reinforcement Learning [54.8518809800168]
CoT(Chain-of-Thought)推論は、LLM(Large Language Models)の問題解決能力を大幅に向上させた。
最近の手法では、連続的な意味空間における推論を可能にするために、ソフトな抽象トークンを生成することでこの問題に対処しようとしている。
提案するM3PO(Multi-Path Perception Policy Optimization)は,推論プロセスに集団的洞察を明示的に注入する,新たな強化学習フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T10:05:46Z) - Deep Hidden Cognition Facilitates Reliable Chain-of-Thought Reasoning [33.30315111732609]
Chain of Thought (CoT)推論は驚くほど深い推論能力を示している。
しかし、その信頼性はしばしば中間段階のエラーの蓄積によって損なわれる。
本稿では,本モデルの固有精度符号化を利用したCoT推論精度の校正手法を提案する。
論文 参考訳(メタデータ) (2025-07-14T07:41:35Z) - CTRLS: Chain-of-Thought Reasoning via Latent State-Transition [57.51370433303236]
チェーン・オブ・シント(CoT)推論は、大規模な言語モデルで複雑な問題を解釈可能な中間ステップに分解することを可能にする。
我々は,遅延状態遷移を伴うマルコフ決定プロセス(MDP)としてCoT推論を定式化するフレームワークであるgroundingSを紹介する。
我々は、ベンチマーク推論タスクにおける推論精度、多様性、探索効率の改善を示す。
論文 参考訳(メタデータ) (2025-07-10T21:32:18Z) - A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [58.32070787537946]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。
大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-05-29T18:55:05Z) - On the Reasoning Capacity of AI Models and How to Quantify It [0.0]
大規模言語モデル(LLM)は、その推論能力の基本的な性質に関する議論を激化させている。
GPQAやMMLUのようなベンチマークで高い性能を達成する一方で、これらのモデルはより複雑な推論タスクにおいて制限を示す。
本稿では,モデル行動のメカニズムを解明するために,従来の精度指標を超える新しい現象論的手法を提案する。
論文 参考訳(メタデータ) (2025-01-23T16:58:18Z) - A NotSo Simple Way to Beat Simple Bench [0.0]
本稿では,大規模言語モデル(LLM)における推論能力向上のための新しい枠組みを提案する。
モデル精度とロバスト性を改善するために,グローバルな整合性チェックと組み合わせたマルチステッププロンプト戦略を提案する。
クロードは論理的整合性を維持するのに優れ, GPT-4oは探索的創造性を示すが, 曖昧なプロンプトに苦しむ。
論文 参考訳(メタデータ) (2024-12-12T16:04:31Z) - Calibrating Reasoning in Language Models with Internal Consistency [18.24350001344488]
大規模言語モデル(LLM)は、様々な推論タスクにおいて印象的な機能を示している。
LLMは、しばしば明らかな誤りと矛盾のあるテキストを生成する。
本研究では,LLMにおける内部表現のレンズによる推論について検討する。
論文 参考訳(メタデータ) (2024-05-29T02:44:12Z) - REFINER: Reasoning Feedback on Intermediate Representations [47.36251998678097]
中間推論を生成するための言語モデルを微調整するフレームワークであるREFINERを紹介する。
REFINERは、推論に対する自動フィードバックを提供する批評家モデルと対話することで機能する。
経験的評価は、同等のスケールのベースラインLMよりも大幅に改善された。
論文 参考訳(メタデータ) (2023-04-04T15:57:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。