Fugu-MT 論文翻訳(概要): VerifiAgent: a Unified Verification Agent in Language Model Reasoning

論文の概要: VerifiAgent: a Unified Verification Agent in Language Model Reasoning

arxiv url: http://arxiv.org/abs/2504.00406v1
Date: Tue, 01 Apr 2025 04:05:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-03 15:43:08.927634
Title: VerifiAgent: a Unified Verification Agent in Language Model Reasoning
Title（参考訳）: VerifiAgent:言語モデル推論における統一検証エージェント
Authors: Jiuzhou Han, Wray Buntine, Ehsan Shareghi,
Abstract要約: 本稿では,メタ検証とツールベース適応検証の2つのレベルを統合した統合検証エージェントを提案する。 VerifiAgentは推論型に基づいて適切な検証ツールを自律的に選択する。推論スケーリングに効果的に適用でき、より少ないサンプルとコストでより良い結果が得られる。
参考スコア（独自算出の注目度）: 10.227089771963943
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models demonstrate remarkable reasoning capabilities but often produce unreliable or incorrect responses. Existing verification methods are typically model-specific or domain-restricted, requiring significant computational resources and lacking scalability across diverse reasoning tasks. To address these limitations, we propose VerifiAgent, a unified verification agent that integrates two levels of verification: meta-verification, which assesses completeness and consistency in model responses, and tool-based adaptive verification, where VerifiAgent autonomously selects appropriate verification tools based on the reasoning type, including mathematical, logical, or commonsense reasoning. This adaptive approach ensures both efficiency and robustness across different verification scenarios. Experimental results show that VerifiAgent outperforms baseline verification methods (e.g., deductive verifier, backward verifier) among all reasoning tasks. Additionally, it can further enhance reasoning accuracy by leveraging feedback from verification results. VerifiAgent can also be effectively applied to inference scaling, achieving better results with fewer generated samples and costs compared to existing process reward models in the mathematical reasoning domain. Code is available at https://github.com/Jiuzhouh/VerifiAgent
Abstract（参考訳）: 大きな言語モデルは顕著な推論能力を示すが、しばしば信頼できない、または誤った応答を生成する。既存の検証方法は通常、モデル固有またはドメイン限定であり、計算資源がかなり必要であり、多様な推論タスクにまたがるスケーラビリティが欠如している。モデル応答における完全性と整合性を評価するメタ検証と,VerifiAgentが数学的・論理的・常識的推論を含む推論型に基づいた適切な検証ツールを自律的に選択するツールベースの適応検証という,2つのレベルの検証を統合した統合検証エージェントであるVerifiAgentを提案する。この適応的なアプローチは、さまざまな検証シナリオにおける効率性と堅牢性の両方を保証する。実験結果から, VerifiAgent はすべての推論タスクにおいて, ベースライン検証法(例えば, 導出検証法, 後方検証法)よりも優れていた。さらに、検証結果からのフィードバックを活用することにより、推論精度をさらに向上することができる。 VerifiAgentは推論スケーリングにも効果的に適用することができ、数学的推論領域における既存のプロセス報酬モデルと比較して、より少ないサンプルとコストでより良い結果が得られる。コードはhttps://github.com/Jiuzhouh/VerifiAgentで入手できる。

関連論文リスト

TrustLoRA: Low-Rank Adaptation for Failure Detection under Out-of-distribution Data [62.22804234013273]
本稿では,共変量および意味的シフトの両条件下での拒絶による分類を統一し,促進する,単純な故障検出フレームワークを提案する。キーとなる洞察は、障害固有の信頼性知識を低ランクアダプタで分離し、統合することにより、障害検出能力を効果的かつ柔軟に向上できるということです。
論文参考訳（メタデータ） (2025-04-20T09:20:55Z)
Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文参考訳（メタデータ） (2025-02-25T19:08:07Z)
Sample, Scrutinize and Scale: Effective Inference-Time Search by Scaling Verification [35.347715518778095]
本研究では,サンプリングに基づく探索を規定するスケーリング傾向について検討する。サンプリングベース検索の最小限の実装を単純にスケールアップするだけで、実用的な推論法が得られます。テスト時間計算で自己検証能力を改善するための2つの有用な原則を同定する。
論文参考訳（メタデータ） (2025-02-03T21:31:07Z)
Scaling Flaws of Verifier-Guided Search in Mathematical Reasoning [16.824343439487617]
大規模言語モデル(LLM)は、推論時間スケーリングがパフォーマンス改善のための有望な戦略として現れている、多段階推論に苦しむ。検証者誘導探索は、有効な推論経路を選択して優先順位付けすることにより、サンプリングサイズが制限されたときに繰り返しサンプリングより優れる。サンプルサイズが大きくなるにつれて、検証者誘導探索は利点を減らし、最終的には繰り返しサンプリングを過小評価する。
論文参考訳（メタデータ） (2025-02-01T02:08:49Z)
Formal Verification of Deep Neural Networks for Object Detection [1.947473271879451]
ディープニューラルネットワーク(DNN)は、現実世界のアプリケーションで広く使われているが、エラーや敵攻撃に弱いままである。この研究は形式的検証を、より複雑なエホブジェクト検出モデルの領域に拡張する。
論文参考訳（メタデータ） (2024-07-01T13:47:54Z)
A Chain-of-Thought Is as Strong as Its Weakest Link: A Benchmark for Verifiers of Reasoning Chains [33.46649770312231]
ステップバイステップの回答を提供するために言語モデルを実証することは、複雑な推論タスクにおいて顕著なアプローチである。このような検証方法の徹底的な評価を可能にするための、きめ細かいステップレベルのデータセットは提供されていない。 ReVEAL: Reasoning Verification Evaluationは複雑なチェーン・オブ・ソート推論の自動検証をベンチマークするデータセットである。
論文参考訳（メタデータ） (2024-02-01T12:46:45Z)
A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文参考訳（メタデータ） (2023-11-14T07:13:10Z)
Logical Satisfiability of Counterfactuals for Faithful Explanations in NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。これは、説明に表される論理述語に基づいて、反実仮説を生成する。そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文参考訳（メタデータ） (2022-05-25T03:40:59Z)
On the Limits of Evaluating Embodied Agent Model Generalization Using Validation Sets [101.28658250723804]
本稿では,より広い視野を効果的に活用し,次のステップでナビゲーションや操作を行うかを選択するモジュールによるトランスフォーマーモデルの拡張実験を行う。提案したモジュールは改良され,実際に,一般的なベンチマークデータセットであるALFREDの未確認検証セット上での最先端のパフォーマンスが向上した。この結果は、機械学習タスクではより広い現象かもしれないが、主にテストスプリットの評価を制限するベンチマークでのみ顕著である、と我々は考えているので強調する。
論文参考訳（メタデータ） (2022-05-18T23:52:21Z)
Generating Fact Checking Explanations [52.879658637466605]
まだ欠けているパズルの重要なピースは、プロセスの最も精巧な部分を自動化する方法を理解することです。本稿では、これらの説明を利用可能なクレームコンテキストに基づいて自動生成する方法について、最初の研究を行う。この結果から,個別に学習するのではなく,両目標を同時に最適化することで,事実確認システムの性能が向上することが示唆された。
論文参考訳（メタデータ） (2020-04-13T05:23:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。