Fugu-MT 論文翻訳(概要): AttributionBench: How Hard is Automatic Attribution Evaluation?

論文の概要: AttributionBench: How Hard is Automatic Attribution Evaluation?

arxiv url: http://arxiv.org/abs/2402.15089v1
Date: Fri, 23 Feb 2024 04:23:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-26 15:38:27.553487
Title: AttributionBench: How Hard is Automatic Attribution Evaluation?
Title（参考訳）: AttributionBench: 自動属性評価はどの程度難しいか?
Authors: Yifei Li, Xiang Yue, Zeyi Liao, Huan Sun
Abstract要約: AttributionBenchは、様々な既存の属性データセットからコンパイルされた包括的なベンチマークである。実験の結果,微調整GPT-3.5でさえ,二項分類法で約80%のマクロF1しか達成できないことがわかった。 300以上のエラーケースの詳細な分析では、失敗の大部分は、ナンスされた情報を処理できないことに起因する。
参考スコア（独自算出の注目度）: 19.872081697282002
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Modern generative search engines enhance the reliability of large language model (LLM) responses by providing cited evidence. However, evaluating the answer's attribution, i.e., whether every claim within the generated responses is fully supported by its cited evidence, remains an open problem. This verification, traditionally dependent on costly human evaluation, underscores the urgent need for automatic attribution evaluation methods. To bridge the gap in the absence of standardized benchmarks for these methods, we present AttributionBench, a comprehensive benchmark compiled from various existing attribution datasets. Our extensive experiments on AttributionBench reveal the challenges of automatic attribution evaluation, even for state-of-the-art LLMs. Specifically, our findings show that even a fine-tuned GPT-3.5 only achieves around 80% macro-F1 under a binary classification formulation. A detailed analysis of more than 300 error cases indicates that a majority of failures stem from the model's inability to process nuanced information, and the discrepancy between the information the model has access to and that human annotators do.
Abstract（参考訳）: 現代の生成検索エンジンは、引用された証拠を提供することで、大規模言語モデル(LLM)応答の信頼性を高める。しかし、回答の帰属性、すなわち、生成された応答内のすべての主張が、その引用された証拠によって完全に支持されているかどうかを評価することは、まだ未解決の問題である。この検証は、伝統的にコストのかかる人的評価に依存しており、自動帰属評価手法の必要性を浮き彫りにしている。これらの手法の標準ベンチマークが存在しないことのギャップを埋めるために、既存の様々なアトリビューションデータセットからコンパイルされた包括的なベンチマークであるattributionbenchを提案する。 attributionbenchに関する広範な実験により,最先端llmにおいても自動帰属評価の課題が明らかになった。特に,細調整GPT-3.5でも,二項分類法では80%程度しかマクロF1を達成できないことがわかった。 300件以上のエラー事例を詳細に分析した結果、多くの障害は、モデルがニュアンス情報を処理できないことと、モデルがアクセスする情報と人間の注釈装置との相違が原因であることが示された。

関連論文リスト

LLMEval-3: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models [51.55869466207234]
静的ベンチマークにおけるLLM(Large Language Models)の既存の評価は、データの汚染やリーダーボードのオーバーフィッティングに弱い。 LLMの動的評価のためのフレームワークであるLLMEval-3を紹介する。 LLEval-3は、220kの卒業生レベルの質問からなるプロプライエタリなバンク上に構築されており、評価実行毎に未確認のテストセットを動的にサンプリングする。
論文参考訳（メタデータ） (2025-08-07T14:46:30Z)
CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文参考訳（メタデータ） (2025-08-05T17:55:24Z)
Diagnosing Failures in Large Language Models' Answers: Integrating Error Attribution into Evaluation Framework [2.0364208478403554]
詳細な分析を容易にするため、6つのプライマリカテゴリと15のセカンダリカテゴリを備えたミサトリビューションフレームワークを構築した。本稿では,誤り帰属に特化して設計されたデータセットであるAttriDataについて述べる。また,AttriData上での微調整モデルであるMisAttributionLLMを提案する。
論文参考訳（メタデータ） (2025-07-11T10:02:21Z)
YourBench: Easy Custom Evaluation Sets for Everyone [12.995134931278056]
YourBenchは、大規模言語モデル(LLM)を評価するための、新しいオープンソースのフレームワークである。手動のアノテーションなしで、信頼性が高く、最新で、ドメインに適したベンチマークを安価に生成する。我々はTemporaに基づくYourBenchライブラリ、Tempora-0325データセット、150k以上の質問応答ペア、およびすべての評価と推論トレースをリリースする。
論文参考訳（メタデータ） (2025-04-02T15:40:24Z)
Does Context Matter? ContextualJudgeBench for Evaluating LLM-based Judges in Contextual Settings [36.449658676568234]
大規模言語モデル(LLM)-as-judgeパラダイムは、モデル出力の安価で信頼性の高い高速な評価要求を満たすために使われてきた。実世界の文脈評価シナリオにインスパイアされた8つの分割に対して2,000の挑戦的な応答対を持つ判定ベンチマークであるContextualJudgeBenchを提案する。我々の総合的研究は、文脈情報とその評価基準が最先端モデルにおいても重要な課題であることを示している。
論文参考訳（メタデータ） (2025-03-19T18:09:19Z)
FactLens: Benchmarking Fine-Grained Fact Verification [6.814173254027381]
我々は、複雑なクレームを個別の検証のためにより小さなサブステートに分割する、きめ細かい検証へのシフトを提唱する。我々は,ファクトレンス(FactLens)という,ファクトレンス(FactLens)という,詳細な事実検証のベンチマークを紹介した。この結果から,FactLens自動評価器と人的判断との整合性を示し,評価性能に対する準定値特性の影響について考察した。
論文参考訳（メタデータ） (2024-11-08T21:26:57Z)
JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文参考訳（メタデータ） (2024-10-31T18:43:12Z)
FactBench: A Dynamic Benchmark for In-the-Wild Language Model Factuality Evaluation [4.773086022844023]
実世界のユーザインタラクションにおけるLMの事実性を評価するパイプラインであるVERIFYを提案する。検証は、LM生成したコンテンツの妥当性を考慮し、コンテンツユニットをサポート、サポート、決定不能と分類する。我々は、FactBench上でGPT、Gemini、Llama3.1ファミリーから広く使われているLMをベンチマークした。
論文参考訳（メタデータ） (2024-10-29T17:19:56Z)
Investigating the Impact of Hard Samples on Accuracy Reveals In-class Data Imbalance [4.291589126905706]
AutoMLドメインでは、モデルの有効性を評価するための重要な指標として、テスト精度が宣言される。しかし、主性能指標としての試験精度の信頼性は疑問視されている。トレーニングセットとテストセット間のハードサンプルの分布は、これらのセットの難易度に影響を与える。本稿では,ハードサンプル識別法を比較するためのベンチマーク手法を提案する。
論文参考訳（メタデータ） (2024-09-22T11:38:14Z)
Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions [75.45274978665684]
VLU(Vision-Language Understanding)ベンチマークには、提供されたコンテキストによってサポートされない仮定に答えが依存するサンプルが含まれている。サンプル毎にコンテキストデータを収集し,エビデンスに基づくモデル予測を促進するためにコンテキスト選択モジュールをトレーニングする。我々は,十分なコンテキストを欠いたサンプルを同定し,モデル精度を向上させる汎用なコンテキスト・アワレ認識検出器を開発した。
論文参考訳（メタデータ） (2024-05-18T02:21:32Z)
Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers [121.53749383203792]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。オープンドメインの文書レベルの事実性ベンチマークを,クレーム,文,文書の3段階の粒度で構築する。予備実験によると、FacTool、FactScore、Perplexityは虚偽の主張を識別するのに苦労している。
論文参考訳（メタデータ） (2023-11-15T14:41:57Z)
Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文参考訳（メタデータ） (2023-05-23T12:05:09Z)
Automatic Evaluation of Attribution by Large Language Models [24.443271739599194]
大規模言語モデル(LLM)による属性の自動評価について検討する。まず、異なる種類の属性エラーを定義し、次に自動評価のための2つのアプローチを検討する。生成検索エンジンNew Bingから12ドメインをカバーする一連のテスト例を手作業でキュレートする。
論文参考訳（メタデータ） (2023-05-10T16:58:33Z)
GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。 GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文参考訳（メタデータ） (2023-04-19T14:58:27Z)
WiCE: Real-World Entailment for Claims in Wikipedia [63.234352061821625]
We propose WiCE, a new fine-fine textual entailment dataset built on natural claim and evidence pairs from Wikipedia。標準クレームレベルのエンターメントに加えて、WiCEはクレームのサブ文単位に対するエンターメント判断を提供する。我々のデータセットの真のクレームは、既存のモデルで対処できない検証と検索の問題に挑戦することを含んでいる。
論文参考訳（メタデータ） (2023-03-02T17:45:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。