論文の概要: DiVA: Fine-grained Factuality Verification with Agentic-Discriminative Verifier
- arxiv url: http://arxiv.org/abs/2601.03605v1
- Date: Wed, 07 Jan 2026 05:35:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.27924
- Title: DiVA: Fine-grained Factuality Verification with Agentic-Discriminative Verifier
- Title(参考訳): DiVA: エージェント識別検証器によるきめ細かい顔認証
- Authors: Hui Huang, Muyun Yang, Yuki Arase,
- Abstract要約: Agentic Discriminative Verifier (DiVA) は、生成モデルのエージェント検索能力を、識別モデルの正確なスコアリング適性を相乗化するハイブリッドフレームワークである。
FGVeriBenchの実験結果から、我々のDiVAは、一般とマルチホップの両方の質問に対する事実性検証において、既存の手法よりも大幅に優れていることが示された。
- 参考スコア(独自算出の注目度): 21.954389816004227
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite the significant advancements of Large Language Models (LLMs), their factuality remains a critical challenge, fueling growing interest in factuality verification. Existing research on factuality verification primarily conducts binary judgments (e.g., correct or incorrect), which fails to distinguish varying degrees of error severity. This limits its utility for applications such as fine-grained evaluation and preference optimization. To bridge this gap, we propose the Agentic Discriminative Verifier (DiVA), a hybrid framework that synergizes the agentic search capabilities of generative models with the precise scoring aptitude of discriminative models. We also construct a new benchmark, FGVeriBench, as a robust testbed for fine-grained factuality verification. Experimental results on FGVeriBench demonstrate that our DiVA significantly outperforms existing methods on factuality verification for both general and multi-hop questions.
- Abstract(参考訳): LLM(Large Language Models)の大幅な進歩にもかかわらず、その事実性は依然として重要な課題であり、事実性検証への関心が高まっている。
事実性検証に関する既存の研究は、主に二分判定(例えば、正しいか間違っているか)を行うが、これは様々な誤差の重大度を区別できない。
これにより、きめ細かい評価や好みの最適化といったアプリケーションに対する実用性が制限される。
このギャップを埋めるために,生成モデルのエージェント探索能力と識別モデルの正確なスコアリング能力とを相乗化するハイブリッドフレームワークであるエージェント識別検証(DiVA)を提案する。
また,FGVeriBenchという新たなベンチマークを,きめ細かい事実検証のための堅牢なテストベッドとして構築する。
FGVeriBenchの実験結果から、我々のDiVAは、一般とマルチホップの両方の質問に対する事実性検証において、既存の手法よりも大幅に優れていることが示された。
関連論文リスト
- When Does Verification Pay Off? A Closer Look at LLMs as Solution Verifiers [11.937771430269201]
本稿では,37大言語モデル(LLM)の体系的研究について述べる。
自己検証と同一家族内および異なる家族間での検証を比較した。
検証者ゲインや偽陽性率尺度などのメトリクスをモデルサイズと後トレーニングで分析し,データセットの妥当性の違いを特徴付ける。
論文 参考訳(メタデータ) (2025-12-02T00:51:14Z) - TrustLoRA: Low-Rank Adaptation for Failure Detection under Out-of-distribution Data [62.22804234013273]
本稿では,共変量および意味的シフトの両条件下での拒絶による分類を統一し,促進する,単純な故障検出フレームワークを提案する。
キーとなる洞察は、障害固有の信頼性知識を低ランクアダプタで分離し、統合することにより、障害検出能力を効果的かつ柔軟に向上できるということです。
論文 参考訳(メタデータ) (2025-04-20T09:20:55Z) - VerifiAgent: a Unified Verification Agent in Language Model Reasoning [10.227089771963943]
本稿では,メタ検証とツールベース適応検証の2つのレベルを統合した統合検証エージェントを提案する。
VerifiAgentは推論型に基づいて適切な検証ツールを自律的に選択する。
推論スケーリングに効果的に適用でき、より少ないサンプルとコストでより良い結果が得られる。
論文 参考訳(メタデータ) (2025-04-01T04:05:03Z) - FactLens: Benchmarking Fine-Grained Fact Verification [6.814173254027381]
我々は、複雑なクレームを個別の検証のためにより小さなサブステートに分割する、きめ細かい検証へのシフトを提唱する。
我々は,ファクトレンス(FactLens)という,ファクトレンス(FactLens)という,詳細な事実検証のベンチマークを紹介した。
この結果から,FactLens自動評価器と人的判断との整合性を示し,評価性能に対する準定値特性の影響について考察した。
論文 参考訳(メタデータ) (2024-11-08T21:26:57Z) - Thinking Racial Bias in Fair Forgery Detection: Models, Datasets and Evaluations [63.52709761339949]
最初に、Fair Forgery Detection(FairFD)データセットと呼ばれる専用のデータセットをコントリビュートし、SOTA(Public State-of-the-art)メソッドの人種的偏見を証明する。
我々は、偽りの結果を避けることができる平均的メトリクスと実用正規化メトリクスを含む新しいメトリクスを設計する。
また,有効で堅牢な後処理技術であるBias Pruning with Fair Activations (BPFA)も提案する。
論文 参考訳(メタデータ) (2024-07-19T14:53:18Z) - Model Stealing Attack against Graph Classification with Authenticity, Uncertainty and Diversity [80.16488817177182]
GNNは、クエリ許可を通じてターゲットモデルを複製するための悪行であるモデル盗難攻撃に対して脆弱である。
異なるシナリオに対応するために,3つのモデルステルス攻撃を導入する。
論文 参考訳(メタデータ) (2023-12-18T05:42:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。