論文の概要: AuthorityBench: Benchmarking LLM Authority Perception for Reliable Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2603.25092v1
- Date: Thu, 26 Mar 2026 06:58:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.145005
- Title: AuthorityBench: Benchmarking LLM Authority Perception for Reliable Retrieval-Augmented Generation
- Title(参考訳): AuthorityBench: 信頼性の高い検索拡張ジェネレーションのための LLM Authority Perception のベンチマーク
- Authors: Zhihui Yao, Hengran Zhang, Keping Bi,
- Abstract要約: Retrieval-Augmented Generation (RAG)は、外部知識でLarge Language Models (LLMs)を強化するが、偽情報を伝達できる低権威ソースには弱い。
我々はLLMが情報権威(意味理解を超えた能力)を知覚できるかどうかを考察する。
LLMの権威知覚を評価するためのベンチマークである AuthorityBench を紹介する。
- 参考スコア(独自算出の注目度): 7.367244763250287
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) enhances Large Language Models (LLMs) with external knowledge but remains vulnerable to low-authority sources that can propagate misinformation. We investigate whether LLMs can perceive information authority - a capability extending beyond semantic understanding. To address this, we introduce AuthorityBench, a comprehensive benchmark for evaluating LLM authority perception comprising three datasets: DomainAuth (10K web domains with PageRank-based authority), EntityAuth (22K entities with popularity-based authority), and RAGAuth (120 queries with documents of varying authority for downstream evaluation). We evaluate five LLMs using three judging methods (PointJudge, PairJudge, ListJudge) across multiple output formats. Results show that ListJudge and PairJudge with PointScore output achieve the strongest correlation with ground-truth authority, while ListJudge offers optimal cost-effectiveness. Notably, incorporating webpage text consistently degrades judgment performance, suggesting authority is distinct from textual style. Downstream experiments on RAG demonstrate that authority-guided filtering largely improves answer accuracy, validating the practical importance of authority perception for reliable knowledge retrieval. Code and benchmark are available at: https://github.com/Trustworthy-Information-Access/AuthorityBench.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG)は、外部知識でLarge Language Models (LLMs)を強化するが、偽情報を伝達できる低権威ソースには弱い。
我々はLLMが情報権威(意味理解を超えた能力)を知覚できるかどうかを考察する。
この問題を解決するために、DomainAuth(PageRankベースの10KのWebドメイン)、EntityAuth(人気ベースの22Kのエンティティ)、RAGAuth(ダウンストリーム評価のためのさまざまな権限を持つ文書を含む120のクエリ)という3つのデータセットからなるLCM権威の認識を評価するための総合的なベンチマークである AuthorityBenchを紹介した。
複数の出力形式にまたがる3つの判定手法(PointJudge, PairJudge, ListJudge)を用いて5つのLCMを評価する。
その結果,ListJudge と PairJudge と PointScore の出力は,Truth-Truth と最強の相関を達成し,ListJudge は最適コスト効率を提供することがわかった。
特に、Webページテキストを組み込むことは、判定性能を一貫して低下させ、権威がテキストのスタイルと異なることを示唆する。
RAGの下流実験では、権威誘導フィルタリングが解答精度を大幅に改善し、信頼性の高い知識検索のための権威認識の実践的重要性を検証している。
コードとベンチマークは、https://github.com/Trustworthy-Information-Access/AuthorityBench.orgで公開されている。
関連論文リスト
- Judge Reliability Harness: Stress Testing the Reliability of LLM Judges [1.1699027359021665]
Judge Reliability Harnessは、LCM判事の信頼性をテストする検証スイートを構築するためのオープンソースライブラリである。
安全性,説得性,誤用,エージェント行動の4つのベンチマークで,最先端の4つの審査員を評価した。
論文 参考訳(メタデータ) (2026-03-05T17:27:07Z) - Benchmarking LLMs for Fine-Grained Code Review with Enriched Context in Practice [18.222990693059756]
ContextCRBenchは、コードレビューにおける詳細なLCM評価のためのベンチマークである。
153.7Kのイシューとトップレベルのリポジトリからのプルリクエストを収集する。
レビューワークフローに沿った3つの評価シナリオをサポートする。
論文 参考訳(メタデータ) (2025-11-10T12:06:35Z) - OpenFactCheck: Building, Benchmarking Customized Fact-Checking Systems and Evaluating the Factuality of Claims and LLMs [59.836774258359945]
OpenFactCheckは、カスタマイズされたファクトチェックシステムを構築するためのフレームワークである。
ユーザーは自動的にファクトチェッカーをカスタマイズし、文書やクレームの事実的正当性を検証できる。
CheckerEVALは、人間の注釈付きデータセットを使用して、自動ファクトチェッカーの検証結果の信頼性を高めるソリューションである。
論文 参考訳(メタデータ) (2024-05-09T07:15:19Z) - FOFO: A Benchmark to Evaluate LLMs' Format-Following Capability [70.84333325049123]
FoFoは、大規模言語モデル(LLM)の複雑なドメイン固有のフォーマットに従う能力を評価するための先駆的なベンチマークである。
本稿では,大規模言語モデル(LLM)の複雑なドメイン固有フォーマットに従う能力を評価するための先駆的ベンチマークであるFoFoを提案する。
論文 参考訳(メタデータ) (2024-02-28T19:23:27Z) - TrustScore: Reference-Free Evaluation of LLM Response Trustworthiness [58.721012475577716]
大規模言語モデル(LLM)は、様々な領域にまたがる印象的な能力を示しており、その実践的応用が急増している。
本稿では,行動整合性の概念に基づくフレームワークであるTrustScoreを紹介する。
論文 参考訳(メタデータ) (2024-02-19T21:12:14Z) - Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers [121.53749383203792]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。
オープンドメインの文書レベルの事実性ベンチマークを,クレーム,文,文書の3段階の粒度で構築する。
予備実験によると、FacTool、FactScore、Perplexityは虚偽の主張を識別するのに苦労している。
論文 参考訳(メタデータ) (2023-11-15T14:41:57Z) - Generating Benchmarks for Factuality Evaluation of Language Models [61.69950787311278]
FACTOR: Factual Assessment via Corpus Transformation, a scalable approach for LM factuality。
FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。
その結果, (i) ベンチマークスコアはモデルサイズに応じて増加し, LMが検索によって拡張されたときに向上する; (ii) ベンチマークスコアとパープレキシティは必ずしもモデルランキングに一致しない; (iii) パープレキシティとベンチマークスコアが一致しない場合, 後者はオープンエンド世代における事実性を反映する。
論文 参考訳(メタデータ) (2023-07-13T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。