論文の概要: Automatic Evaluation of Attribution by Large Language Models
- arxiv url: http://arxiv.org/abs/2305.06311v2
- Date: Sat, 7 Oct 2023 22:46:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 12:53:23.780926
- Title: Automatic Evaluation of Attribution by Large Language Models
- Title(参考訳): 大規模言語モデルによる帰属の自動評価
- Authors: Xiang Yue, Boshi Wang, Ziru Chen, Kai Zhang, Yu Su and Huan Sun
- Abstract要約: 大規模言語モデル(LLM)による属性の自動評価について検討する。
まず、異なる種類の属性エラーを定義し、次に自動評価のための2つのアプローチを検討する。
生成検索エンジンNew Bingから12ドメインをカバーする一連のテスト例を手作業でキュレートする。
- 参考スコア(独自算出の注目度): 24.443271739599194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A recent focus of large language model (LLM) development, as exemplified by
generative search engines, is to incorporate external references to generate
and support its claims. However, evaluating the attribution, i.e., verifying
whether the generated statement is fully supported by the cited reference,
remains an open problem. Although human evaluation is common practice, it is
costly and time-consuming. In this paper, we investigate the automatic
evaluation of attribution given by LLMs. We begin by defining different types
of attribution errors, and then explore two approaches for automatic
evaluation: prompting LLMs and fine-tuning smaller LMs. The fine-tuning data is
repurposed from related tasks such as question answering, fact-checking,
natural language inference, and summarization. We manually curate a set of test
examples covering 12 domains from a generative search engine, New Bing. Our
results on this curated test set and simulated examples from existing
benchmarks highlight both promising signals and challenges. We hope our problem
formulation, testbeds, and findings will help lay the foundation for future
studies on this important problem.
- Abstract(参考訳): 近年の大規模言語モデル(LLM)開発の焦点は、生成検索エンジンが示すように、そのクレームの生成とサポートのために外部参照を組み込むことである。
しかし、属性の評価、すなわち、生成された文が参照によって完全にサポートされているかどうかを検証することは、未解決の問題である。
人間の評価は一般的な慣行であるが、費用と時間を要する。
本稿では,LLMによる属性の自動評価について検討する。
まず、異なる種類の帰属誤差を定義し、次に2つの自動評価手法について検討する。
微調整データは、質問応答、事実チェック、自然言語推論、要約などの関連するタスクから再利用される。
生成検索エンジンNew Bingから12ドメインをカバーする一連のテスト例を手作業でキュレートする。
このキュレートされたテストセットと、既存のベンチマークによるシミュレーション例の結果は、有望な信号と課題の両方を強調している。
私たちの問題定式化、テストベッド、そして調査結果が、この重要な問題に関する今後の研究の基礎を築くのに役立つことを願っています。
関連論文リスト
- WebCiteS: Attributed Query-Focused Summarization on Chinese Web Search
Results with Citations [36.314460206807745]
我々は,属性付きクエリ中心要約 (AQFS) のタスクを定式化するとともに,7kの人称注釈の要約を引用した中国語データセットであるWebCiteSを提示する。
これらの課題に対処するために、詳細なメトリクスを開発し、自動評価器が文を細かな検証のためにサブステートに分解できるようにする。
論文 参考訳(メタデータ) (2024-03-04T07:06:41Z) - Benchmarking Large Language Models in Complex Question Answering
Attribution using Knowledge Graphs [35.089203283068635]
属性を測定するための細かなカテゴリのセットを紹介し,CAQA(Complex Attributed Question Answering)ベンチマークを開発する。
分析の結果,既存の評価器は微粒な属性設定では性能が悪く,複雑な引用文の推論に弱点が認められることがわかった。
論文 参考訳(メタデータ) (2024-01-26T04:11:07Z) - Investigating Data Contamination in Modern Benchmarks for Large Language
Models [29.48101352768151]
近年の観測は、膨らませたベンチマークスコアとLLMの実際の性能の相違を裏付けている。
我々は,オープンソースのLLMとプロプライエタリなLLMの両方に適した2つの手法を提案し,データ汚染について検討した。
いくつかの商用LCMは、様々なテストセットに欠けているオプションを驚くほど推測できる。
論文 参考訳(メタデータ) (2023-11-16T11:03:04Z) - Automatic Hallucination Assessment for Aligned Large Language Models via
Transferable Adversarial Attacks [98.22864957942821]
本稿では,大規模言語モデルが忠実に振る舞う既存データを適切に修正し,評価データを自動的に生成する手法を開発することを目的とする。
具体的には,LLM ベースのフレームワークである Auto Debug について述べる。
実験結果から, LLMは, インプロンプトに与えられた知識とパラメトリック知識との間に矛盾がある場合, 質問応答シナリオの2つのカテゴリに幻覚を与える可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Making Retrieval-Augmented Language Models Robust to Irrelevant Context [60.70054129188434]
ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立つことである。
近年の研究では、検索の増大がパフォーマンスに悪影響を及ぼすことが示されている。
論文 参考訳(メタデータ) (2023-10-02T18:52:35Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。