論文の概要: CTTS: Collective Test-Time Scaling
- arxiv url: http://arxiv.org/abs/2508.03333v1
- Date: Tue, 05 Aug 2025 11:19:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.930036
- Title: CTTS: Collective Test-Time Scaling
- Title(参考訳): CTTS: 集合的なテスト時間スケーリング
- Authors: Zhende Song, Shengji Tang, Peng Ye, Jiayuan Fan, Tao Chen,
- Abstract要約: 私たちは、集合的テスト時間スケーリング(CTTS)を探求する第一歩を踏み出します。
シングルモデルとマルチモデルの異なる相互作用タイプについて考えてみましょう。
我々は,マルチエージェントとマルチリワードモデルの両方を効果的に活用するCTTS-MMという新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 11.575072390128309
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test-time scaling (TTS) has emerged as a promising research field for enhancing the effectiveness of large language models (LLMs) without extra training. However, most existing approaches, e.g., Best-of-N and Self-Consistency rely on a single agent interacting with a reward model (SA-SR), constrained by limited capabilities of a single test-time scaling (STTS) paradigm. On the other hand, recent works demonstrate that collective-agent methods can break through the upper bound of single-agent systems by orchestrating diverse models. Thus, in this paper, we take a first step towards exploring Collective Test-Time Scaling (CTTS). Consider the different interaction types of single and multiple models, we design three primary paradigms to investigate the optimal paradigm of CTTS: (1) single agent to multiple reward models (SA-MR); (2) multiple agents to single reward model (MA-SR); and (3) multiple agents to multiple reward models (MA-MR). Extensive experiments demonstrate that MA-MR consistently achieves the best performance. Based on this, we propose a novel framework named CTTS-MM that effectively leverages both multi-agent and multi-reward-model collaboration for enhanced inference. Specifically, for multi-agent collaboration, we propose an Agent Collaboration Search (ACS), which searches for the most effective combination of LLM agents from a large candidate pool; for multi-reward-model collaboration, we propose Mixture of Reword Models (MoR), which consists of a curated question pool and a Prior Reward model Ensemble Selection (PRES) to select the optimal combinations of reward models via Pair-wise Reward Ranking (PRR) metric. Experiments across seven mainstream benchmarks demonstrate that the proposed CTTS-MM consistently obtains superior performance. Code will be released at https://github.com/magent4aci/CTTS-MM.
- Abstract(参考訳): テストタイムスケーリング(TTS)は,大規模言語モデル(LLM)の有効性を高めるための将来性のある研究分野として登場した。
しかしながら、既存のほとんどのアプローチ、例えばBest-of-NやSelf-Consistencyは、単一のテストタイムスケーリング(STTS)パラダイムの限られた機能によって制約される報酬モデル(SA-SR)と相互作用する単一のエージェントに依存している。
一方,近年の研究では,多種多様なモデルを編成することにより,集合エージェント法が単一エージェントシステムの上限を突破できることが示されている。
そこで本研究では,CTTS(Collective Test-Time Scaling)の探索に向けて第一歩を踏み出す。
1つのエージェントから複数の報酬モデル(SA-MR)、(2)複数のエージェントから1つの報酬モデル(MA-SR)、(3)複数のエージェントから複数の報酬モデル(MA-MR)である。
大規模な実験は、MA-MRが常に最高の性能を達成することを示した。
そこで本研究では,マルチエージェントとマルチリワードモデルの両方を効果的に活用して推論を高速化する,CTTS-MMという新しいフレームワークを提案する。
具体的には、大規模候補プールからLLMエージェントの最も効果的な組み合わせを探索するエージェント協調探索(ACS)を提案し、マルチリワードモデルコラボレーションでは、キュレートされた質問プールと事前リワードモデルからなるMixture of Reword Models(MoR)を提案し、PRES(Ensemble Selection)を用いて報酬モデルの最適組み合わせを選択する。
7つの主要なベンチマークで実験したところ、提案したCTTS-MMは一貫して優れた性能が得られることがわかった。
コードはhttps://github.com/magent4aci/CTTS-MMでリリースされる。
関連論文リスト
- Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。
これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。
本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - Two Heads are Better Than One: Test-time Scaling of Multi-agent Collaborative Reasoning [29.580108004844856]
大規模言語モデル(LLM)上に構築されたマルチエージェントシステム(MAS)は、複雑で現実的なタスクを解決するための有望な道を提供する。
テストタイムスケーリング(TTS)の最近の進歩は、難解な推論タスクにおいて、シングルエージェントのパフォーマンスを大幅に改善した。
モデルレベルのトレーニングとシステムレベルの調整の両方を通じて協調推論を強化するために設計された適応型マルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-14T00:27:45Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - Boosting Virtual Agent Learning and Reasoning: A Step-Wise, Multi-Dimensional, and Generalist Reward Model with Benchmark [72.46357004059661]
Generalist Virtual Agents (GVA) は自律的なタスク実行において大きな可能性を示している。
これらの課題に対処するため,ステップワイズ多次元ジェネラリスト・リワードモデルを提案する。
同様に、エージェントトレーニング用のきめ細かい信号を提供し、推論時間スケーリングのためのより良いアクションを選択することができる。
論文 参考訳(メタデータ) (2025-03-24T13:30:47Z) - VisualPRM: An Effective Process Reward Model for Multimodal Reasoning [76.35753243272521]
既存のマルチモーダル大言語モデル(MLLM)の推論能力を改善するVisualPRMを導入する。
我々のモデルは7つのマルチモーダル推論ベンチマークで5.9ポイントの改善を実現している。
マルチモーダルPRMの評価のために,人間に注釈付きステップワイズラベルを付したベンチマークであるVisualProcessBenchを提案する。
論文 参考訳(メタデータ) (2025-03-13T12:03:37Z) - Multi-Agent Sampling: Scaling Inference Compute for Data Synthesis with Tree Search-Based Agentic Collaboration [81.45763823762682]
本研究の目的は,マルチエージェントサンプリングによるデータ合成の問題を調べることでギャップを埋めることである。
逐次サンプリングプロセス中にワークフローが反復的に進化する木探索に基づくオーケストレーションエージェント(TOA)を紹介する。
アライメント、機械翻訳、数学的推論に関する実験は、マルチエージェントサンプリングが推論計算スケールとしてシングルエージェントサンプリングを著しく上回ることを示した。
論文 参考訳(メタデータ) (2024-12-22T15:16:44Z) - Towards Robust Multi-Modal Reasoning via Model Selection [7.6621866737827045]
LLMはエージェントの"脳"として機能し、協調的な多段階タスク解決のための複数のツールを編成する。
我々はテスト時に無視できるランタイムオーバーヘッドを持つプラグインとして、$textitM3$フレームワークを提案する。
実験の結果,我々のフレームワークは,ユーザ入力とサブタスク依存の両方を考慮した動的モデル選択を可能にすることがわかった。
論文 参考訳(メタデータ) (2023-10-12T16:06:18Z) - Multipath agents for modular multitask ML systems [2.579908688646812]
提案した研究は、複数のメソッドを異なるエージェントとして定義できる新しい方法論を紹介した。
エージェントは、与えられたタスクに対するMLモデルの生成と改善のために協力し、競争することができる。
論文 参考訳(メタデータ) (2023-02-06T11:57:45Z) - Model ensemble instead of prompt fusion: a sample-specific knowledge
transfer method for few-shot prompt tuning [85.55727213502402]
我々は、ソースタスクのソフトプロンプトから知識を伝達することで、プロンプトチューニングにおける数ショットのパフォーマンスを改善することに集中する。
我々はソースモデル(SESoM)のサンプル固有アンサンブルを提案する。
SESoMは、ソースモデルが出力されるときに、ターゲットの各サンプルに対するソースモデルのコントリビューションを個別に調整することを学ぶ。
論文 参考訳(メタデータ) (2022-10-23T01:33:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。