論文の概要: Automatic Evaluation of Attribution by Large Language Models
- arxiv url: http://arxiv.org/abs/2305.06311v1
- Date: Wed, 10 May 2023 16:58:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 12:04:55.177872
- Title: Automatic Evaluation of Attribution by Large Language Models
- Title(参考訳): 大規模言語モデルによる帰属の自動評価
- Authors: Xiang Yue, Boshi Wang, Kai Zhang, Ziru Chen, Yu Su and Huan Sun
- Abstract要約: 大規模言語モデル(LLM)による属性の自動評価について検討する。
評価を容易にするため、生成検索エンジンNew Bingから12ドメインをカバーするテスト例を手作業で作成する。
実験結果と既存のベンチマーク質問からの模擬テスト例の結果は,有望な信号だけでなく,属性の自動評価の課題も浮き彫りにしている。
- 参考スコア(独自算出の注目度): 30.858736788488223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A recent focus of large language model (LLM) development, as exemplified by
generative search engines, is to incorporate external references to generate
and support their claims. However, evaluating the attribution, i.e., verifying
whether the generated statement is indeed fully supported by the cited
reference, remains an open problem. Although human evaluation is common
practice, it is costly and time-consuming. In this paper, we investigate the
automatic evaluation of attribution by LLMs. We begin by providing a definition
of attribution and then explore two approaches for automatic evaluation:
prompting LLMs and fine-tuning smaller LMs. The fine-tuning data is repurposed
from related tasks, such as question answering, fact-checking, natural language
inference, and summarization. To facilitate the evaluation, we manually curate
a set of test examples covering 12 domains from a generative search engine, New
Bing. Our results on the curated test set and simulated test examples from
existing benchmark questions highlight both promising signals as well as
remaining challenges for the automatic evaluation of attribution. We hope our
testbed, modeling methodology, and insights will help lay the foundation for
future studies on this important problem.
- Abstract(参考訳): 近年の大規模言語モデル(LLM)開発の焦点は、生成検索エンジンが示すように、外部参照を組み込んで、それらのクレームの生成とサポートを行うことである。
しかし、帰属性、すなわち、生成されたステートメントが実際に参照によって完全にサポートされているかどうかを検証することは、依然として未解決の問題である。
人間の評価は一般的な慣行であるが、費用と時間を要する。
本稿では,LSMによる属性の自動評価について検討する。
まず、帰属の定義を提供することから始め、自動評価のための2つのアプローチを検討します。
微調整データは、質問応答、事実チェック、自然言語推論、要約など、関連するタスクから再利用される。
評価を容易にするため、生成検索エンジンNew Bingから12ドメインをカバーするテスト例を手作業で作成する。
既存のベンチマーク質問から収集したテストセットとシミュレーションテスト例の結果は,有望な信号と帰属の自動評価の課題の両方を強調した。
テストベッド、モデリング方法論、洞察が、この重要な問題に関する将来の研究の基礎となることを願っています。
関連論文リスト
- Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - WebCiteS: Attributed Query-Focused Summarization on Chinese Web Search
Results with Citations [36.314460206807745]
我々は,属性付きクエリ中心要約 (AQFS) のタスクを定式化するとともに,7kの人称注釈の要約を引用した中国語データセットであるWebCiteSを提示する。
これらの課題に対処するために、詳細なメトリクスを開発し、自動評価器が文を細かな検証のためにサブステートに分解できるようにする。
論文 参考訳(メタデータ) (2024-03-04T07:06:41Z) - Benchmarking Large Language Models in Complex Question Answering
Attribution using Knowledge Graphs [35.089203283068635]
属性を測定するための細かなカテゴリのセットを紹介し,CAQA(Complex Attributed Question Answering)ベンチマークを開発する。
分析の結果,既存の評価器は微粒な属性設定では性能が悪く,複雑な引用文の推論に弱点が認められることがわかった。
論文 参考訳(メタデータ) (2024-01-26T04:11:07Z) - Investigating Data Contamination in Modern Benchmarks for Large Language Models [27.479260572913724]
近年の観測は、膨らませたベンチマークスコアとLLMの実際の性能の相違を裏付けている。
我々は,オープンソースのLLMとプロプライエタリなLLMの両方に適した2つの手法を提案し,データ汚染について検討した。
いくつかの商用LCMは、様々なテストセットに欠けているオプションを驚くほど推測できる。
論文 参考訳(メタデータ) (2023-11-16T11:03:04Z) - Automatic Hallucination Assessment for Aligned Large Language Models via
Transferable Adversarial Attacks [98.22864957942821]
本稿では,大規模言語モデルが忠実に振る舞う既存データを適切に修正し,評価データを自動的に生成する手法を開発することを目的とする。
具体的には,LLM ベースのフレームワークである Auto Debug について述べる。
実験結果から, LLMは, インプロンプトに与えられた知識とパラメトリック知識との間に矛盾がある場合, 質問応答シナリオの2つのカテゴリに幻覚を与える可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Making Retrieval-Augmented Language Models Robust to Irrelevant Context [55.564789967211844]
ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立つことである。
近年の研究では、検索の増大がパフォーマンスに悪影響を及ぼすことが示されている。
論文 参考訳(メタデータ) (2023-10-02T18:52:35Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。