Fugu-MT 論文翻訳(概要): TMAS: Scaling Test-Time Compute via Multi-Agent Synergy

論文の概要: TMAS: Scaling Test-Time Compute via Multi-Agent Synergy

arxiv url: http://arxiv.org/abs/2605.10344v2
Date: Tue, 19 May 2026 06:59:56 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-21 06:35:59.7484
Title: TMAS: Scaling Test-Time Compute via Multi-Agent Synergy
Title（参考訳）: TMAS:マルチエージェントシナジーによるテスト時間計算のスケーリング
Authors: George Wu, Nan Jing, Qing Yi, Chuan Hao, Ming Yang, Feng Chang, Yuan Wei, Jian Yang, Ran Tao, Bryan Dai,
Abstract要約: テストタイムスケーリングは、大規模言語モデルの推論能力を改善するための効果的なパラダイムとなっている。マルチエージェント・シナジーによるテスト時間計算のスケーリングを行うフレームワークであるTMASを提案する。 TMASが既存のテスト時間スケーリングベースラインよりも強力な反復スケーリングを実現していることを示す。
参考スコア（独自算出の注目度）: 17.644613845744388
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Test-time scaling has become an effective paradigm for improving the reasoning ability of large language models by allocating additional computation during inference. Recent structured approaches have further advanced this paradigm by organizing inference across multiple trajectories, refinement rounds, and verification-based feedback. However, existing structured test-time scaling methods either weakly coordinate parallel reasoning trajectories or rely on noisy historical information without explicitly deciding what should be retained and reused, limiting their ability to balance exploration and exploitation. In this work, we propose TMAS, a framework for scaling test-time compute via multi-agent synergy. TMAS organizes inference as a collaborative process among specialized agents, enabling structured information flow across agents, trajectories, and refinement iterations. To support effective cross-trajectory collaboration, TMAS introduces hierarchical memories: the experience bank reuses low-level reliable intermediate conclusions and local feedback, while the guideline bank records previously explored high-level strategies to steer subsequent rollouts away from redundant reasoning patterns. Furthermore, we design a hybrid reward reinforcement learning scheme tailored to TMAS, which jointly preserves basic reasoning capability, enhances experience utilization, and encourages exploration beyond previously attempted solution strategies. Extensive experiments on challenging reasoning benchmarks show that TMAS achieves stronger iterative scaling than existing test-time scaling baselines, with hybrid reward training further improving scaling effectiveness and stability across iterations. Code and data are available at https://github.com/IQuestLab/tmas.
Abstract（参考訳）: テストタイムスケーリングは、推論中にさらなる計算を割り当てることで、大規模言語モデルの推論能力を改善するための効果的なパラダイムとなっている。近年の構造化アプローチは、複数の軌道をまたいだ推論、改良ラウンド、検証に基づくフィードバックを組織化することによって、このパラダイムをさらに進歩させてきた。しかし、既存の構造化テストタイムスケーリング手法は、並列推論軌跡を弱めに調整するか、何が保持され、再利用されるべきかを明確に決定せずに、ノイズの多い歴史的情報に頼るか、探索と利用のバランスを取る能力を制限する。本研究では,マルチエージェント・シナジーによるテスト時間計算のスケーリングフレームワークであるTMASを提案する。 TMASは、エージェント間の協調的なプロセスとして推論を整理し、エージェント間の構造化された情報フロー、軌道、改善イテレーションを可能にする。経験銀行は、低レベルの信頼性中間結論と局所的なフィードバックを再利用し、ガイドライン銀行記録は、冗長な推論パターンからその後のロールアウトを回避するための高レベルの戦略を以前検討していた。さらに,TMASに合わせたハイブリッド型報酬強化学習スキームを設計し,基本的推論能力を共同で保存し,経験的利用を高めるとともに,これまで試みてきたソリューション戦略を超えて探索を奨励する。挑戦的推論ベンチマークに関する大規模な実験は、TMASが既存のテストタイムスケーリングベースラインよりも強力な反復スケーリングを実現し、ハイブリッド報酬トレーニングにより、イテレーション間のスケーリング効率と安定性がさらに向上していることを示している。コードとデータはhttps://github.com/IQuestLab/tmas.comで公開されている。

関連論文リスト

UniT: Unified Multimodal Chain-of-Thought Test-time Scaling [85.590774707406]
統一モデルは単一のアーキテクチャ内でマルチモーダル理解と生成の両方を扱うことができるが、通常は出力を反復的に書き換えることなく単一のパスで操作する。マルチモーダルなテストタイムスケーリングのためのフレームワークであるUniTを導入し、単一の統一モデルで複数のラウンドをまたいだ推論、検証、精査を可能にします。
論文参考訳（メタデータ） (2026-02-12T18:59:49Z)
Guided Verifier: Collaborative Multimodal Reasoning via Dynamic Process Supervision [11.159231524113764]
マルチモーダル大規模言語モデル(MLLM)の複雑な推論能力を高めるための重要なメカニズムとして強化学習(RL)が登場した。本稿では,これらの構造的制約に対処する textbfGuided Verifier フレームワークを提案する。我々は,マルチモーダル幻覚をターゲットとした特殊なデータ合成パイプラインを開発し,プロセスレベルの負の textbfCoRe データセットとtextbfCorrect-guide textbfReasoning トラジェクトリを構築し,ガイド付き検証器を訓練する。
論文参考訳（メタデータ） (2026-02-04T07:38:42Z)
Dual-Phase LLM Reasoning: Self-Evolved Mathematical Frameworks [48.105258051884384]
本稿では,モデルの自己補正能力を高めるための2段階トレーニングフレームワークを提案する。最初の段階では、マルチターン対話戦略がモデルをガイドし、長いチェーン・オブ・シント(CoT)データを生成する。第2段階では、データの分散を動的に最適化する難易度の高い拒絶サンプリング機構を採用している。
論文参考訳（メタデータ） (2026-01-09T08:19:11Z)
Multi-hop Reasoning via Early Knowledge Alignment [68.28168992785896]
アーリー・ナレッジ・アライメント(EKA)は、大規模言語モデルと文脈的に関連づけられた知識を整合させることを目的としている。 EKAは検索精度を大幅に改善し、カスケードエラーを低減し、性能と効率を向上する。 EKAは、大規模モデルにシームレスにスケールする、多目的でトレーニング不要な推論戦略として有効である。
論文参考訳（メタデータ） (2025-12-23T08:14:44Z)
Scaling Up, Speeding Up: A Benchmark of Speculative Decoding for Efficient LLM Test-Time Scaling [38.27469349005585]
テストタイムスケーリングは、大規模言語モデルの推論能力を高めるための強力なパラダイムである。テストタイムのスケーリングは、冗長かつ反復的な推論トレースの生成によって本質的に非効率である。テスト時間スケーリングを高速化する投機的復号法を評価するために設計された最初の包括的なベンチマークを紹介する。
論文参考訳（メタデータ） (2025-08-30T01:54:55Z)
Stepwise Reasoning Checkpoint Analysis: A Test Time Scaling Method to Enhance LLMs' Reasoning [81.50681925980135]
本稿では,ステップワイズ推論チェックポイント分析(SRCA)を提案する。本研究は,(1)中間チェックポイント回答による経路推論をグループ化して品質を確保しつつ多様性を維持するAnswer-Clustered Search,(2)最終決定にすべての中間回答を活用するCheckpoint Candidate Augmentationの2つの主要な戦略を取り入れた。提案手法は経路均質化を効果的に低減し,高品質な中間結果を活用することにより耐故障機構を創出する。
論文参考訳（メタデータ） (2025-05-23T12:42:50Z)
SETS: Leveraging Self-Verification and Self-Correction for Improved Test-Time Scaling [39.57154199908565]
自己拡張テストタイムスケーリング(SETS)は、並列およびシーケンシャルなテクニックを戦略的に組み合わせることで制限を克服する、シンプルで効果的なアプローチである。 SETSは、大規模言語モデルの固有の自己検証と自己計算機能を活用し、単一のフレームワーク内でサンプリング、検証、修正を統合する。以上の結果から,SETSは代替品よりも優れた性能向上と,より有利なテスト時間スケーリング動作を実現していることがわかった。
論文参考訳（メタデータ） (2025-01-31T17:03:16Z)
Chain-of-Retrieval Augmented Generation [91.02950964802454]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文参考訳（メタデータ） (2025-01-24T09:12:52Z)
RaCT: Ranking-aware Chain-of-Thought Optimization for LLMs [30.216174551427443]
大規模言語モデル(LLM)は、テキスト再ランクタスクにおいて顕著な可能性を示している。 LLMをランク付けタスクに特化するための従来の微調整手法は、しばしばモデルの汎用能力を著しく低下させる。本稿では,CoT(Chain-of-Thought)と革新的な2段階トレーニングパイプラインを戦略的に組み合わせた手法を提案する。
論文参考訳（メタデータ） (2024-12-18T23:24:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。