論文の概要: AttributionBench: How Hard is Automatic Attribution Evaluation?
- arxiv url: http://arxiv.org/abs/2402.15089v1
- Date: Fri, 23 Feb 2024 04:23:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 15:38:27.553487
- Title: AttributionBench: How Hard is Automatic Attribution Evaluation?
- Title(参考訳): AttributionBench: 自動属性評価はどの程度難しいか?
- Authors: Yifei Li, Xiang Yue, Zeyi Liao, Huan Sun
- Abstract要約: AttributionBenchは、様々な既存の属性データセットからコンパイルされた包括的なベンチマークである。
実験の結果,微調整GPT-3.5でさえ,二項分類法で約80%のマクロF1しか達成できないことがわかった。
300以上のエラーケースの詳細な分析では、失敗の大部分は、ナンスされた情報を処理できないことに起因する。
- 参考スコア(独自算出の注目度): 19.872081697282002
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern generative search engines enhance the reliability of large language
model (LLM) responses by providing cited evidence. However, evaluating the
answer's attribution, i.e., whether every claim within the generated responses
is fully supported by its cited evidence, remains an open problem. This
verification, traditionally dependent on costly human evaluation, underscores
the urgent need for automatic attribution evaluation methods. To bridge the gap
in the absence of standardized benchmarks for these methods, we present
AttributionBench, a comprehensive benchmark compiled from various existing
attribution datasets. Our extensive experiments on AttributionBench reveal the
challenges of automatic attribution evaluation, even for state-of-the-art LLMs.
Specifically, our findings show that even a fine-tuned GPT-3.5 only achieves
around 80% macro-F1 under a binary classification formulation. A detailed
analysis of more than 300 error cases indicates that a majority of failures
stem from the model's inability to process nuanced information, and the
discrepancy between the information the model has access to and that human
annotators do.
- Abstract(参考訳): 現代の生成検索エンジンは、引用された証拠を提供することで、大規模言語モデル(LLM)応答の信頼性を高める。
しかし、回答の帰属性、すなわち、生成された応答内のすべての主張が、その引用された証拠によって完全に支持されているかどうかを評価することは、まだ未解決の問題である。
この検証は、伝統的にコストのかかる人的評価に依存しており、自動帰属評価手法の必要性を浮き彫りにしている。
これらの手法の標準ベンチマークが存在しないことのギャップを埋めるために、既存の様々なアトリビューションデータセットからコンパイルされた包括的なベンチマークであるattributionbenchを提案する。
attributionbenchに関する広範な実験により,最先端llmにおいても自動帰属評価の課題が明らかになった。
特に,細調整GPT-3.5でも,二項分類法では80%程度しかマクロF1を達成できないことがわかった。
300件以上のエラー事例を詳細に分析した結果、多くの障害は、モデルがニュアンス情報を処理できないことと、モデルがアクセスする情報と人間の注釈装置との相違が原因であることが示された。
関連論文リスト
- FactLens: Benchmarking Fine-Grained Fact Verification [6.814173254027381]
我々は、複雑なクレームを個別の検証のためにより小さなサブステートに分割する、きめ細かい検証へのシフトを提唱する。
我々は,ファクトレンス(FactLens)という,ファクトレンス(FactLens)という,詳細な事実検証のベンチマークを紹介した。
この結果から,FactLens自動評価器と人的判断との整合性を示し,評価性能に対する準定値特性の影響について考察した。
論文 参考訳(メタデータ) (2024-11-08T21:26:57Z) - JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。
我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。
さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文 参考訳(メタデータ) (2024-10-31T18:43:12Z) - FactBench: A Dynamic Benchmark for In-the-Wild Language Model Factuality Evaluation [4.773086022844023]
実世界のユーザインタラクションにおけるLMの事実性を評価するパイプラインであるVERIFYを提案する。
検証は、LM生成したコンテンツの妥当性を考慮し、コンテンツユニットをサポート、サポート、決定不能と分類する。
我々は、FactBench上でGPT、Gemini、Llama3.1ファミリーから広く使われているLMをベンチマークした。
論文 参考訳(メタデータ) (2024-10-29T17:19:56Z) - Investigating the Impact of Hard Samples on Accuracy Reveals In-class Data Imbalance [4.291589126905706]
AutoMLドメインでは、モデルの有効性を評価するための重要な指標として、テスト精度が宣言される。
しかし、主性能指標としての試験精度の信頼性は疑問視されている。
トレーニングセットとテストセット間のハードサンプルの分布は、これらのセットの難易度に影響を与える。
本稿では,ハードサンプル識別法を比較するためのベンチマーク手法を提案する。
論文 参考訳(メタデータ) (2024-09-22T11:38:14Z) - Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions [75.45274978665684]
VLU(Vision-Language Understanding)ベンチマークには、提供されたコンテキストによってサポートされない仮定に答えが依存するサンプルが含まれている。
サンプル毎にコンテキストデータを収集し,エビデンスに基づくモデル予測を促進するためにコンテキスト選択モジュールをトレーニングする。
我々は,十分なコンテキストを欠いたサンプルを同定し,モデル精度を向上させる汎用なコンテキスト・アワレ認識検出器を開発した。
論文 参考訳(メタデータ) (2024-05-18T02:21:32Z) - Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers [121.53749383203792]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。
オープンドメインの文書レベルの事実性ベンチマークを,クレーム,文,文書の3段階の粒度で構築する。
予備実験によると、FacTool、FactScore、Perplexityは虚偽の主張を識別するのに苦労している。
論文 参考訳(メタデータ) (2023-11-15T14:41:57Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Automatic Evaluation of Attribution by Large Language Models [24.443271739599194]
大規模言語モデル(LLM)による属性の自動評価について検討する。
まず、異なる種類の属性エラーを定義し、次に自動評価のための2つのアプローチを検討する。
生成検索エンジンNew Bingから12ドメインをカバーする一連のテスト例を手作業でキュレートする。
論文 参考訳(メタデータ) (2023-05-10T16:58:33Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - WiCE: Real-World Entailment for Claims in Wikipedia [63.234352061821625]
We propose WiCE, a new fine-fine textual entailment dataset built on natural claim and evidence pairs from Wikipedia。
標準クレームレベルのエンターメントに加えて、WiCEはクレームのサブ文単位に対するエンターメント判断を提供する。
我々のデータセットの真のクレームは、既存のモデルで対処できない検証と検索の問題に挑戦することを含んでいる。
論文 参考訳(メタデータ) (2023-03-02T17:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。