論文の概要: Multi-Agent Verification: Scaling Test-Time Compute with Multiple Verifiers
- arxiv url: http://arxiv.org/abs/2502.20379v1
- Date: Thu, 27 Feb 2025 18:53:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:57:57.198862
- Title: Multi-Agent Verification: Scaling Test-Time Compute with Multiple Verifiers
- Title(参考訳): マルチエージェント検証:複数検証器によるテスト時間計算のスケーリング
- Authors: Shalev Lifshitz, Sheila A. McIlraith, Yilun Du,
- Abstract要約: マルチエージェント検証(Multi-Agent Verification、MAV)は、複数の検証器を組み合わせて性能を向上させるテスト時間計算パラダイムである。
我々は,n個のベスト・オブ・nサンプリングと複数の検証器を組み合わせた,単純なマルチエージェント検証アルゴリズムであるBoN-MAVを紹介する。
この結果から,テスト時の言語モデルの性能向上に期待できる新たな次元として,検証者の数を拡大することが確認できた。
- 参考スコア(独自算出の注目度): 36.1723136776532
- License:
- Abstract: By utilizing more computational resources at test-time, large language models (LLMs) can improve without additional training. One common strategy uses verifiers to evaluate candidate outputs. In this work, we propose a novel scaling dimension for test-time compute: scaling the number of verifiers. We introduce Multi-Agent Verification (MAV) as a test-time compute paradigm that combines multiple verifiers to improve performance. We propose using Aspect Verifiers (AVs), off-the-shelf LLMs prompted to verify different aspects of outputs, as one possible choice for the verifiers in a MAV system. AVs are a convenient building block for MAV since they can be easily combined without additional training. Moreover, we introduce BoN-MAV, a simple multi-agent verification algorithm that combines best-of-n sampling with multiple verifiers. BoN-MAV demonstrates stronger scaling patterns than self-consistency and reward model verification, and we demonstrate both weak-to-strong generalization, where combining weak verifiers improves even stronger LLMs, and self-improvement, where the same base model is used to both generate and verify outputs. Our results establish scaling the number of verifiers as a promising new dimension for improving language model performance at test-time.
- Abstract(参考訳): テスト時により多くの計算資源を活用することで、大きな言語モデル(LLM)は追加のトレーニングなしで改善できる。
1つの一般的な戦略は、検証器を使用して候補出力を評価する。
本研究では,テスト時間計算のための新しいスケーリングディメンションを提案する。
本稿では,複数の検証器を組み合わせて性能を向上させるテスト時間計算パラダイムとして,マルチエージェント検証(MAV)を導入する。
我々は,MAVシステムにおける検証の可能な1つの選択肢として,出力の異なる側面を検証するために,市販のLCMであるアスペクト検証器(AV)を提案する。
AVは、追加の訓練なしに簡単に組み合わせることができるため、MAVにとって便利なビルディングブロックである。
さらに,BON-MAVは,最良値サンプリングと複数の検証器を組み合わせた簡易なマルチエージェント検証アルゴリズムである。
BoN-MAVは自己整合性や報酬モデル検証よりも強力なスケーリングパターンを示し,弱い検証器を組み合わせることでLLMをさらに強化する弱い一般化と,同じベースモデルを用いて出力を生成・検証する自己改善の両立を実証する。
この結果から,テスト時の言語モデルの性能向上に期待できる新たな次元として,検証者の数を拡大することが確認できた。
関連論文リスト
- Dual Prototype Evolving for Test-Time Generalization of Vision-Language Models [11.545127156146368]
本稿では,事前学習型視覚言語モデル(VLM)のための新しいテスト時間適応手法であるDual Prototype Evolving (DPE)を紹介する。
テスト期間中にターゲットクラスに対するより正確なマルチモーダル表現を段階的にキャプチャするために、テキストとビジュアルの2つのプロトタイプを作成し、進化させます。
提案したDPEは,従来の最先端手法を一貫して上回りながら,競争力のある計算効率を示す。
論文 参考訳(メタデータ) (2024-10-16T17:59:49Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Generative Verifiers: Reward Modeling as Next-Token Prediction [29.543787728397643]
本研究では,ユビキタスな次世代予測目標を用いて,検証とソリューション生成を併用したトレーニング検証手法を提案する。
標準検証器と比較して、そのような生成検証器(genRM)はLLMのいくつかの利点の恩恵を受けることができる。
我々は、MATHで28%$rightarrow$44.6%、MMLU抽象代数学で37.9%$rightarrow$53.5%の改善を観察する。
論文 参考訳(メタデータ) (2024-08-27T17:57:45Z) - AssertionBench: A Benchmark to Evaluate Large-Language Models for Assertion Generation [6.3585378855805725]
本稿では,アサーション生成におけるLarge-Language Modelsの有効性を評価するための新しいベンチマークを提案する。
AssertioBenchにはOpenCoresから100のキュレートされたVerilogハードウェア設計が含まれており、GoldMineとHARMから生成された各設計について正式に承認されている。
論文 参考訳(メタデータ) (2024-06-26T14:47:28Z) - Towards Reliable AI Model Deployments: Multiple Input Mixup for
Out-of-Distribution Detection [4.985768723667418]
本稿では,OOD(Out-of-Distribution)検出問題の解法を提案する。
本手法は, 単一エポック微調整によるOOD検出性能の向上に有効である。
我々の方法は、ゼロからモデルを訓練する必要がなく、簡単に分類器にアタッチできる。
論文 参考訳(メタデータ) (2023-12-24T15:31:51Z) - BLESS: Benchmarking Large Language Models on Sentence Simplification [55.461555829492866]
我々は、テキスト単純化(TS)タスク上で、最新の最先端の大規模言語モデル(LLM)のパフォーマンスベンチマークであるBLESSを紹介する。
異なるドメイン(Wikipedia、ニュース、医療)の3つのテストセットに対して、サイズ、アーキテクチャ、事前学習方法、アクセシビリティの異なる44のモデルを評価する。
評価の結果,最高のLSMはTSのトレーニングを受けていないにもかかわらず,最先端のTSベースラインと相容れない性能を示した。
論文 参考訳(メタデータ) (2023-10-24T12:18:17Z) - Model ensemble instead of prompt fusion: a sample-specific knowledge
transfer method for few-shot prompt tuning [85.55727213502402]
我々は、ソースタスクのソフトプロンプトから知識を伝達することで、プロンプトチューニングにおける数ショットのパフォーマンスを改善することに集中する。
我々はソースモデル(SESoM)のサンプル固有アンサンブルを提案する。
SESoMは、ソースモデルが出力されるときに、ターゲットの各サンプルに対するソースモデルのコントリビューションを個別に調整することを学ぶ。
論文 参考訳(メタデータ) (2022-10-23T01:33:16Z) - On the Limits of Evaluating Embodied Agent Model Generalization Using
Validation Sets [101.28658250723804]
本稿では,より広い視野を効果的に活用し,次のステップでナビゲーションや操作を行うかを選択するモジュールによるトランスフォーマーモデルの拡張実験を行う。
提案したモジュールは改良され,実際に,一般的なベンチマークデータセットであるALFREDの未確認検証セット上での最先端のパフォーマンスが向上した。
この結果は、機械学習タスクではより広い現象かもしれないが、主にテストスプリットの評価を制限するベンチマークでのみ顕著である、と我々は考えているので強調する。
論文 参考訳(メタデータ) (2022-05-18T23:52:21Z) - Meet MASKS: A novel Multi-Classifier's verification approach [2.588063924663932]
複数の分類器から構成されるマルチエージェントシステムは、安全性の満足度を検証するために設計されている。
分散知識の集約に関する推論を考察する論理モデルが提案されている。
厳密な評価として、Fashion-MNIST、MNIST、Fruit-360データセットに適用した。
論文 参考訳(メタデータ) (2020-07-03T10:47:40Z) - Masking as an Efficient Alternative to Finetuning for Pretrained
Language Models [49.64561153284428]
我々は、微調整によって修正する代わりに、事前訓練された重量に対する選択的な二乗マスクを学習する。
内在的評価では、マスキング言語モデルによって計算された表現が、下流タスクの解決に必要な情報を符号化していることを示す。
論文 参考訳(メタデータ) (2020-04-26T15:03:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。