Fugu-MT 論文翻訳(概要): Multi-Agent Verification: Scaling Test-Time Compute with Multiple Verifiers

論文の概要: Multi-Agent Verification: Scaling Test-Time Compute with Multiple Verifiers

arxiv url: http://arxiv.org/abs/2502.20379v1
Date: Thu, 27 Feb 2025 18:53:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-28 15:15:47.221736
Title: Multi-Agent Verification: Scaling Test-Time Compute with Multiple Verifiers
Title（参考訳）: マルチエージェント検証:複数検証器によるテスト時間計算のスケーリング
Authors: Shalev Lifshitz, Sheila A. McIlraith, Yilun Du,
Abstract要約: マルチエージェント検証(Multi-Agent Verification、MAV)は、複数の検証器を組み合わせて性能を向上させるテスト時間計算パラダイムである。我々は,n個のベスト・オブ・nサンプリングと複数の検証器を組み合わせた,単純なマルチエージェント検証アルゴリズムであるBoN-MAVを紹介する。この結果から,テスト時の言語モデルの性能向上に期待できる新たな次元として,検証者の数を拡大することが確認できた。
参考スコア（独自算出の注目度）: 36.1723136776532
License: http://creativecommons.org/licenses/by/4.0/
Abstract: By utilizing more computational resources at test-time, large language models (LLMs) can improve without additional training. One common strategy uses verifiers to evaluate candidate outputs. In this work, we propose a novel scaling dimension for test-time compute: scaling the number of verifiers. We introduce Multi-Agent Verification (MAV) as a test-time compute paradigm that combines multiple verifiers to improve performance. We propose using Aspect Verifiers (AVs), off-the-shelf LLMs prompted to verify different aspects of outputs, as one possible choice for the verifiers in a MAV system. AVs are a convenient building block for MAV since they can be easily combined without additional training. Moreover, we introduce BoN-MAV, a simple multi-agent verification algorithm that combines best-of-n sampling with multiple verifiers. BoN-MAV demonstrates stronger scaling patterns than self-consistency and reward model verification, and we demonstrate both weak-to-strong generalization, where combining weak verifiers improves even stronger LLMs, and self-improvement, where the same base model is used to both generate and verify outputs. Our results establish scaling the number of verifiers as a promising new dimension for improving language model performance at test-time.
Abstract（参考訳）: テスト時により多くの計算資源を活用することで、大きな言語モデル(LLM)は追加のトレーニングなしで改善できる。 1つの一般的な戦略は、検証器を使用して候補出力を評価する。本研究では,テスト時間計算のための新しいスケーリングディメンションを提案する。本稿では,複数の検証器を組み合わせて性能を向上させるテスト時間計算パラダイムとして,マルチエージェント検証(MAV)を導入する。我々は,MAVシステムにおける検証の可能な1つの選択肢として,出力の異なる側面を検証するために,市販のLCMであるアスペクト検証器(AV)を提案する。 AVは、追加の訓練なしに簡単に組み合わせることができるため、MAVにとって便利なビルディングブロックである。さらに,BON-MAVは,最良値サンプリングと複数の検証器を組み合わせた簡易なマルチエージェント検証アルゴリズムである。 BoN-MAVは自己整合性や報酬モデル検証よりも強力なスケーリングパターンを示し,弱い検証器を組み合わせることでLLMをさらに強化する弱い一般化と,同じベースモデルを用いて出力を生成・検証する自己改善の両立を実証する。この結果から,テスト時の言語モデルの性能向上に期待できる新たな次元として,検証者の数を拡大することが確認できた。

関連論文リスト

CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文参考訳（メタデータ） (2025-08-05T17:55:24Z)
Learning to Reason Across Parallel Samples for LLM Reasoning [45.60752271688715]
テスト時間計算のスケールアップは、大規模な言語モデルに大幅なパフォーマンス向上をもたらす。このような複数のサンプルセットを活用する新しい方法を提案する。我々は、複数のサンプルのシーケンスを取り、最終的な答えを出力するコンパクトなLLMを訓練する。
論文参考訳（メタデータ） (2025-06-10T17:42:35Z)
Reinforcing Multimodal Understanding and Generation with Dual Self-rewards [56.08202047680044]
大規模言語モデル(LLM)は、クロスモデル理解と生成を単一のフレームワークに統合する。現在のソリューションでは、外部の監視(例えば、人間のフィードバックや報酬モデル)が必要であり、一方向のタスクにのみ対処する。我々は,LMMの理解と生成能力を強化するために,自己監督型二重報酬機構を導入する。
論文参考訳（メタデータ） (2025-06-09T17:38:45Z)
Continuous Self-Improvement of Large Language Models by Test-time Training with Verifier-Driven Sample Selection [6.471199527741301]
VDS-TTT(Verifier-Driven Sample Selection for Test-Time Training)と呼ばれる新しいフレームワークを導入する。学習した検証器を用いて、生成された応答のプールをスコアし、高いランクの擬似ラベル付き例からのみ選び、微調整を施す。低ランクなLoRAアダプタパラメータのみを微調整し、適応効率と高速収束を確保する。
論文参考訳（メタデータ） (2025-05-26T03:54:47Z)
T1: Tool-integrated Self-verification for Test-time Compute Scaling in Small Language Models [9.674458633565111]
テスト時間スケーリングにおいて,小言語モデル(sLM)がアウトプットを確実に自己検証できるかどうかを検討する。本稿では,コードインタプリタなどの外部ツールに多量の検証ステップを委譲するツール統合自己検証(T1)を提案する。理論解析により,ツール統合は記憶の要求を減らし,テストタイムのスケーリング性能を向上することが示された。
論文参考訳（メタデータ） (2025-04-07T04:01:17Z)
Sample, Don't Search: Rethinking Test-Time Alignment for Language Models [55.2480439325792]
新しいテストタイムアライメントアプローチであるQAlignを紹介します。テスト時間計算をスケールする際、QAlignは各プロンプトの最適配向分布からのサンプリングに収束する。マルコフ連鎖モンテカルロのテキスト生成における最近の進歩を取り入れることで、基礎となるモデルを変更したり、ロジットアクセスを必要とせずに、より良い整合出力を可能にする。
論文参考訳（メタデータ） (2025-04-04T00:41:40Z)
Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文参考訳（メタデータ） (2025-02-25T19:08:07Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
Scoring Verifiers: Evaluating Synthetic Verification for Code and Reasoning [59.25951947621526]
本稿では,既存の符号化ベンチマークをスコアとランキングデータセットに変換して,合成検証の有効性を評価する手法を提案する。我々は4つの新しいベンチマーク(HE-R, HE-R+, MBPP-R, MBPP-R+)を公表し, 標準, 推論, 報酬に基づくLCMを用いて合成検証手法を解析した。実験の結果, 推論はテストケースの生成を著しく改善し, テストケースのスケーリングによって検証精度が向上することがわかった。
論文参考訳（メタデータ） (2025-02-19T15:32:11Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
Generative Verifiers: Reward Modeling as Next-Token Prediction [29.543787728397643]
本研究では,ユビキタスな次世代予測目標を用いて,検証とソリューション生成を併用したトレーニング検証手法を提案する。標準検証器と比較して、そのような生成検証器(genRM)はLLMのいくつかの利点の恩恵を受けることができる。我々は、MATHで28%$rightarrow$44.6%、MMLU抽象代数学で37.9%$rightarrow$53.5%の改善を観察する。
論文参考訳（メタデータ） (2024-08-27T17:57:45Z)
AssertionBench: A Benchmark to Evaluate Large-Language Models for Assertion Generation [6.3585378855805725]
本稿では,アサーション生成におけるLarge-Language Modelsの有効性を評価するための新しいベンチマークを提案する。 AssertioBenchにはOpenCoresから100のキュレートされたVerilogハードウェア設計が含まれており、GoldMineとHARMから生成された各設計について正式に承認されている。
論文参考訳（メタデータ） (2024-06-26T14:47:28Z)
Arithmetic in Transformers Explained [1.8434042562191815]
我々は、加算、減算、または両方で訓練された44個の自己回帰トランスモデルを解析する。加算モデルが共通論理アルゴリズムに収束し、ほとんどのモデルが99.999%の精度で予測できることを示す。我々は,これらのアルゴリズム回路を定義し,発見し,視覚化するために,機械的解釈可能性ツールの再利用ライブラリを導入する。
論文参考訳（メタデータ） (2024-02-04T21:33:18Z)
Towards Reliable AI Model Deployments: Multiple Input Mixup for Out-of-Distribution Detection [4.985768723667418]
本稿では,OOD(Out-of-Distribution)検出問題の解法を提案する。本手法は, 単一エポック微調整によるOOD検出性能の向上に有効である。我々の方法は、ゼロからモデルを訓練する必要がなく、簡単に分類器にアタッチできる。
論文参考訳（メタデータ） (2023-12-24T15:31:51Z)
Model ensemble instead of prompt fusion: a sample-specific knowledge transfer method for few-shot prompt tuning [85.55727213502402]
我々は、ソースタスクのソフトプロンプトから知識を伝達することで、プロンプトチューニングにおける数ショットのパフォーマンスを改善することに集中する。我々はソースモデル(SESoM)のサンプル固有アンサンブルを提案する。 SESoMは、ソースモデルが出力されるときに、ターゲットの各サンプルに対するソースモデルのコントリビューションを個別に調整することを学ぶ。
論文参考訳（メタデータ） (2022-10-23T01:33:16Z)
Meet MASKS: A novel Multi-Classifier's verification approach [2.588063924663932]
複数の分類器から構成されるマルチエージェントシステムは、安全性の満足度を検証するために設計されている。分散知識の集約に関する推論を考察する論理モデルが提案されている。厳密な評価として、Fashion-MNIST、MNIST、Fruit-360データセットに適用した。
論文参考訳（メタデータ） (2020-07-03T10:47:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。