論文の概要: Scaling Trends for Multi-Hop Contextual Reasoning in Mid-Scale Language Models
- arxiv url: http://arxiv.org/abs/2601.04254v1
- Date: Tue, 06 Jan 2026 20:18:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.830116
- Title: Scaling Trends for Multi-Hop Contextual Reasoning in Mid-Scale Language Models
- Title(参考訳): 中規模言語モデルにおけるマルチホップ文脈推論のスケーリング動向
- Authors: Brady Steele, Micah Katz,
- Abstract要約: 大規模言語モデルにおけるマルチホップ文脈推論の制御に関する研究について述べる。
マルチエージェントシステムは逆パターンを示し、ルールベースのメソッドが失敗する推論タスクを最大80%達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a controlled study of multi-hop contextual reasoning in large language models, providing a clean demonstration of the task-method dissociation: rule-based pattern matching achieves 100% success on structured information retrieval but only 6.7% on tasks requiring cross-document reasoning, while LLM-based multi-agent systems show the inverse pattern, achieving up to 80% on reasoning tasks where rule-based methods fail. Using a synthetic evaluation framework with 120 trials across four models (LLaMA-3 8B, LLaMA-2 13B, Mixtral 8x7B, DeepSeek-V2 16B), we report three key findings: (1) Multi-agent amplification depends on base capability: statistically significant gains occur only for models with sufficient reasoning ability (p < 0.001 for LLaMA-3 8B, p = 0.014 for Mixtral), with improvements of up to 46.7 percentage points, while weaker models show no benefit, suggesting amplification rather than compensation; (2) Active parameters predict reasoning performance: Mixtral's performance aligns with its ~12B active parameters rather than 47B total, consistent with the hypothesis that inference-time compute drives reasoning capability in MoE architectures; (3) Architecture quality matters: LLaMA-3 8B outperforms LLaMA-2 13B despite fewer parameters, consistent with known training improvements. Our results provide controlled quantitative evidence for intuitions about multi-agent coordination and MoE scaling, while highlighting the dependence of multi-agent benefits on base model capability. We release our evaluation framework to support reproducible research on reasoning in mid-scale models.
- Abstract(参考訳): ルールベースのパターンマッチングは構造化情報検索において100%成功したが、文書間推論を必要とするタスクでは6.7%しか成功せず、LCMベースのマルチエージェントシステムは逆パターンを示し、ルールベースのメソッドが失敗するタスクでは最大80%を達成している。
4つのモデル(LLaMA-3 8B, LLaMA-2 13B, Mixtral 8x7B, DeepSeek-V2 16B)で120回の試験を行った結果,(1)マルチエージェント増幅は基本能力に依存する: 統計的に有意な利得は十分な推論能力を持つモデルにのみ発生する (p < 0.001, LLaMA-3 8B, p = 0.014)。
本研究は,マルチエージェント協調とMoEスケーリングに関する直観の量的証拠を提供するとともに,ベースモデル能力に対するマルチエージェントの利点の依存性を強調した。
中規模モデルにおける推論に関する再現可能な研究を支援するための評価フレームワークをリリースする。
関連論文リスト
- One Model to Critique Them All: Rewarding Agentic Tool-Use via Efficient Reasoning [54.580646706013965]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
一般的なツール使用シナリオに適した軽量な生成型RMのファミリーであるToolRMを紹介する。
これらのモデルを構築するために,ルールベースのスコアリングと多次元サンプリングを用いたペアワイズ選好データを構築するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-30T06:08:27Z) - MCP: A Control-Theoretic Orchestration Framework for Synergistic Efficiency and Interpretability in Multimodal Large Language Models [0.0]
本研究では,モデル・コントローラ・タスク適応(MCP)に基づく3層協調フレームワークを提案する。
実験の結果,MPPフレームワークはベースラインモデルと比較して,GLUE,COCO,ScienceQAなどのクロスモーダルベンチマークタスクの性能を15~30%向上し,推論効率を40%向上させ,プレゼンテーション層を通じて解釈可能な中間結果を生成し,手動の解釈可能性スコアの90%を得ることができた。
論文 参考訳(メタデータ) (2025-09-20T09:44:11Z) - Advancing Multimodal Reasoning via Reinforcement Learning with Cold Start [24.244577648817188]
アハモーメント」パターンは強化学習(RL)の創発的特性に起因することが多い
本稿では,2段階アプローチによるマルチモーダル推論の強化に関する総合的研究について述べる。
実験の結果,この組み合わせはSFTのみの手法とRLのみの手法より一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2025-05-28T13:21:38Z) - Skywork Open Reasoner 1 Technical Report [51.403686909760914]
提案するSkywork-OR1は,長期チェーン・オブ・ソート(CoT)モデルのための,効果的かつスケーラブルな強化学習(RL)実装である。
DeepSeek-R1-Distillモデルシリーズをベースとして、我々のRLアプローチは顕著なパフォーマンス向上を実現している。
我々のSkywork-OR1-32Bモデルは、AIME24とAIME25ベンチマークでDeepSeek-R1とQwen3-32Bを上回っています。
論文 参考訳(メタデータ) (2025-05-28T12:56:04Z) - Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。
我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文 参考訳(メタデータ) (2025-05-20T21:12:58Z) - DeepSeek-R1 vs. o3-mini: How Well can Reasoning LLMs Evaluate MT and Summarization? [17.97981669263259]
推論可能な大規模言語モデル (LLM) は論理的タスクに優れるが、自然言語生成を評価するための実用性はまだ明らかにされていない。
本研究は,機械翻訳およびテキスト要約評価タスクにおいて,推論LLMと非推論LLMを体系的に比較する。
論文 参考訳(メタデータ) (2025-04-10T20:39:18Z) - VisualPRM: An Effective Process Reward Model for Multimodal Reasoning [76.35753243272521]
既存のマルチモーダル大言語モデル(MLLM)の推論能力を改善するVisualPRMを導入する。
我々のモデルは7つのマルチモーダル推論ベンチマークで5.9ポイントの改善を実現している。
マルチモーダルPRMの評価のために,人間に注釈付きステップワイズラベルを付したベンチマークであるVisualProcessBenchを提案する。
論文 参考訳(メタデータ) (2025-03-13T12:03:37Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - Retrieval-augmented Multi-modal Chain-of-Thoughts Reasoning for Large
Language Models [56.256069117502385]
Chain of Thought (CoT)アプローチは、複雑な推論タスクにおいて、LLM(Large Language Models)の能力を高めるために使用できる。
しかし、マルチモーダル推論における最適なCoT実例の選択は、まだ検討されていない。
本稿では,この課題に対処する新しい手法として,検索機構を用いて実演例を自動的に選択する手法を提案する。
論文 参考訳(メタデータ) (2023-12-04T08:07:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。