論文の概要: CTTS: Collective Test-Time Scaling
- arxiv url: http://arxiv.org/abs/2508.03333v2
- Date: Sun, 28 Sep 2025 04:43:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 17:47:09.143636
- Title: CTTS: Collective Test-Time Scaling
- Title(参考訳): CTTS: 集合的なテスト時間スケーリング
- Authors: Zhende Song, Shengji Tang, Peng Ye, Jiayuan Fan, Lei Bai, Tao Chen, Wanli Ouyang,
- Abstract要約: テスト時スケーリング(TTS)は,大規模言語モデル(LLM)のパフォーマンス向上のための,有望かつトレーニング不要なアプローチとして登場した。
単体テストタイムスケーリング(STTS)パラダイムを克服するために、CTTS(Collective Test-Time Scaling)を導入します。
CTTS-MMは、マルチエージェントとマルチリワードのコラボレーションを運用する新しいフレームワークである。
- 参考スコア(独自算出の注目度): 58.564620942591866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test-time scaling (TTS) has emerged as a promising, training-free approach for enhancing large language model (LLM) performance. However, the efficacy of existing methods, such as Best-of-N and Self-Consistency, is fundamentally constrained by the dominant single test-time scaling (STTS) paradigm, which relies on a single LLM agent interacting with a single reward model (SA-SR). Inspired by recent work showing that collective methods can surpass the performance ceiling of individual models, we introduce Collective Test-Time Scaling (CTTS). First, we systematically investigate three primary interaction paradigms of existing multiple models: single-agent-multi-reward (SA-MR), multi-agent-single-reward (MA-SR), and multi-agent-multi-reward (MA-MR). Extensive experiments reveal that the MA-MR paradigm is consistently superior. Based on this finding, we further propose CTTS-MM, a novel framework that operationalizes multi-agent and multi-reward collaboration. CTTS-MM integrates two key technical contributions: (1) for agent collaboration, an Agent Collaboration Search (ACS) that identifies the most effective combination of LLMs from a candidate pool; and (2) for reward model collaboration, a Mixture of Reward Models (MoR) strategy that leverages a Prior Reward model Ensemble Selection (PRES) algorithm to select the optimal ensemble. Evaluations across seven mainstream benchmarks demonstrate that CTTS-MM significantly outperforms leading STTS methods (+4.82% over Best-of-N) and surpasses even flagship proprietary LLMs (+7.06% over GPT-4.1) and open-source LLMs. These results highlight the substantial potential of collective scaling to push the frontier of LLM inference. Code will be released at https://github.com/magent4aci/CTTS-MM.
- Abstract(参考訳): テスト時スケーリング(TTS)は,大規模言語モデル(LLM)のパフォーマンス向上のための,有望かつトレーニング不要なアプローチとして登場した。
しかしながら、Best-of-NやSelf-Consistencyといった既存の手法の有効性は、単一の報酬モデル(SA-SR)と相互作用する単一のLLMエージェントに依存する、支配的な単一テストタイムスケーリング(STTS)パラダイムによって根本的に制約されている。
近年の研究では,集合的手法が個々のモデルの性能上限を超過できることに着想を得て,集合的テスト時間スケーリング(CTTS)を紹介した。
まず,既存のマルチモデルにおいて,単一エージェント・マルチ・リワード(SA-MR),マルチエージェント・シングル・リワード(MA-SR),マルチエージェント・マルチ・リワード(MA-MR)の3つの主要な相互作用パラダイムを体系的に検討する。
大規模な実験により、MA-MRパラダイムは一貫して優れていることが判明した。
そこで本研究では,マルチエージェント・マルチリワード協調を運用する新しいフレームワークであるCTTS-MMを提案する。
CTTS-MMは,(1)エージェント協調のためのエージェント協調探索(ACS),(2)報酬モデル協調のためのエージェント協調探索(ACS),(2)プライマリ・リワードモデルを利用したMixture of Reward Models(MoR)戦略,(PRES)アルゴリズムを用いて最適なアンサンブルを選択する。
7つの主要なベンチマークで評価したところ、CTTS-MMは主要なSTTS法(+4.82%がBest-of-N)を上回り、フラグシップのLLM(+7.06%がGPT-4.1)とオープンソースLLMを抜いた。
これらの結果は、LLM推論のフロンティアを推し進めるために、集団スケーリングの実質的な可能性を強調している。
コードはhttps://github.com/magent4aci/CTTS-MMでリリースされる。
関連論文リスト
- Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。
これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。
本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - Two Heads are Better Than One: Test-time Scaling of Multi-agent Collaborative Reasoning [29.580108004844856]
大規模言語モデル(LLM)上に構築されたマルチエージェントシステム(MAS)は、複雑で現実的なタスクを解決するための有望な道を提供する。
テストタイムスケーリング(TTS)の最近の進歩は、難解な推論タスクにおいて、シングルエージェントのパフォーマンスを大幅に改善した。
モデルレベルのトレーニングとシステムレベルの調整の両方を通じて協調推論を強化するために設計された適応型マルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-14T00:27:45Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - Boosting Virtual Agent Learning and Reasoning: A Step-Wise, Multi-Dimensional, and Generalist Reward Model with Benchmark [72.46357004059661]
Generalist Virtual Agents (GVA) は自律的なタスク実行において大きな可能性を示している。
これらの課題に対処するため,ステップワイズ多次元ジェネラリスト・リワードモデルを提案する。
同様に、エージェントトレーニング用のきめ細かい信号を提供し、推論時間スケーリングのためのより良いアクションを選択することができる。
論文 参考訳(メタデータ) (2025-03-24T13:30:47Z) - VisualPRM: An Effective Process Reward Model for Multimodal Reasoning [76.35753243272521]
既存のマルチモーダル大言語モデル(MLLM)の推論能力を改善するVisualPRMを導入する。
我々のモデルは7つのマルチモーダル推論ベンチマークで5.9ポイントの改善を実現している。
マルチモーダルPRMの評価のために,人間に注釈付きステップワイズラベルを付したベンチマークであるVisualProcessBenchを提案する。
論文 参考訳(メタデータ) (2025-03-13T12:03:37Z) - Multi-Agent Sampling: Scaling Inference Compute for Data Synthesis with Tree Search-Based Agentic Collaboration [81.45763823762682]
本研究の目的は,マルチエージェントサンプリングによるデータ合成の問題を調べることでギャップを埋めることである。
逐次サンプリングプロセス中にワークフローが反復的に進化する木探索に基づくオーケストレーションエージェント(TOA)を紹介する。
アライメント、機械翻訳、数学的推論に関する実験は、マルチエージェントサンプリングが推論計算スケールとしてシングルエージェントサンプリングを著しく上回ることを示した。
論文 参考訳(メタデータ) (2024-12-22T15:16:44Z) - Towards Robust Multi-Modal Reasoning via Model Selection [7.6621866737827045]
LLMはエージェントの"脳"として機能し、協調的な多段階タスク解決のための複数のツールを編成する。
我々はテスト時に無視できるランタイムオーバーヘッドを持つプラグインとして、$textitM3$フレームワークを提案する。
実験の結果,我々のフレームワークは,ユーザ入力とサブタスク依存の両方を考慮した動的モデル選択を可能にすることがわかった。
論文 参考訳(メタデータ) (2023-10-12T16:06:18Z) - Multipath agents for modular multitask ML systems [2.579908688646812]
提案した研究は、複数のメソッドを異なるエージェントとして定義できる新しい方法論を紹介した。
エージェントは、与えられたタスクに対するMLモデルの生成と改善のために協力し、競争することができる。
論文 参考訳(メタデータ) (2023-02-06T11:57:45Z) - Model ensemble instead of prompt fusion: a sample-specific knowledge
transfer method for few-shot prompt tuning [85.55727213502402]
我々は、ソースタスクのソフトプロンプトから知識を伝達することで、プロンプトチューニングにおける数ショットのパフォーマンスを改善することに集中する。
我々はソースモデル(SESoM)のサンプル固有アンサンブルを提案する。
SESoMは、ソースモデルが出力されるときに、ターゲットの各サンプルに対するソースモデルのコントリビューションを個別に調整することを学ぶ。
論文 参考訳(メタデータ) (2022-10-23T01:33:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。