論文の概要: Measuring Attribution in Natural Language Generation Models
- arxiv url: http://arxiv.org/abs/2112.12870v1
- Date: Thu, 23 Dec 2021 22:33:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-28 16:11:00.964575
- Title: Measuring Attribution in Natural Language Generation Models
- Title(参考訳): 自然言語生成モデルにおける属性の測定
- Authors: Hannah Rashkin, Vitaly Nikolaev, Matthew Lamm, Michael Collins,
Dipanjan Das, Slav Petrov, Gaurav Singh Tomar, Iulia Turc, David Reitter
- Abstract要約: 本稿では、自然言語生成モデルの出力を評価するためのAIS(Attributable to Identified Sources)という新しい評価フレームワークを提案する。
まず、AISを定義し、アノテータがモデル出力を適切に評価できるように、2段階のアノテーションパイプラインを導入します。
- 参考スコア(独自算出の注目度): 14.931889185122213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With recent improvements in natural language generation (NLG) models for
various applications, it has become imperative to have the means to identify
and evaluate whether NLG output is only sharing verifiable information about
the external world. In this work, we present a new evaluation framework
entitled Attributable to Identified Sources (AIS) for assessing the output of
natural language generation models, when such output pertains to the external
world. We first define AIS and introduce a two-stage annotation pipeline for
allowing annotators to appropriately evaluate model output according to AIS
guidelines. We empirically validate this approach on three generation datasets
(two in the conversational QA domain and one in summarization) via human
evaluation studies that suggest that AIS could serve as a common framework for
measuring whether model-generated statements are supported by underlying
sources. We release guidelines for the human evaluation studies.
- Abstract(参考訳): 近年の自然言語生成(NLG)モデルの改良により,NLGの出力が外部世界に関する検証可能な情報のみを共有しているかどうかを識別し,評価する手段が求められている。
本稿では,自然言語生成モデルのアウトプットを評価するために,そのアウトプットが外部世界に関係する場合に帰属する特定ソース(ais)を帰属する新たな評価フレームワークを提案する。
まずAISを定義し,AISガイドラインに従ってアノテータが適切なモデル出力を評価するための2段階のアノテーションパイプラインを導入する。
我々は,AISがモデル生成文が基盤となる情報源によって支持されているかどうかを測る共通の枠組みとして機能する可能性が示唆される3世代データセット(会話QAドメインでは2つ,要約では1つ)において,このアプローチを実証的に検証する。
我々は人間評価研究のガイドラインを公表する。
関連論文リスト
- Collective Constitutional AI: Aligning a Language Model with Public Input [20.95333081841239]
言語モデル(LM)開発者は、LMの振る舞いの唯一の決定者であってはならないというコンセンサスが高まっている。
我々は、公共のインプットをLMにソーシングし、統合するための多段階プロセスであるCCAI(Collective Constitutional AI)を提示する。
我々は、この手法の現実的な実践性を、我々の知識に則って、公開入力を集約した最初のLM微調整を作成することによって実証する。
論文 参考訳(メタデータ) (2024-06-12T02:20:46Z) - Lessons from the Trenches on Reproducible Evaluation of Language Models [60.522749986793094]
我々は,大規模言語モデルの評価を3年間経験し,研究者に指導とレッスンを提供してきた。
本稿では,言語モデルの独立性,再現性,評価を行うオープンソースライブラリであるLanguage Model Evaluation Harness(lm-eval)を紹介する。
論文 参考訳(メタデータ) (2024-05-23T16:50:49Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - LLMs as Narcissistic Evaluators: When Ego Inflates Evaluation Scores [23.568883428947494]
本研究は,LMに基づく評価指標が,要約タスクの文脈において,それぞれの基盤となるLMに対して有利なバイアスを示すかどうかを考察する。
以上の結果から, 金のサマリーを活用せずに, 基準のない手法で評価指標を用いた場合, 特に有意なバイアスがみられた。
これらの結果は、生成的評価モデルによって提供される評価は、本質的なテキスト品質を超える要因に影響される可能性があることを裏付けている。
論文 参考訳(メタデータ) (2023-11-16T10:43:26Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Reranking for Natural Language Generation from Logical Forms: A Study
based on Large Language Models [47.08364281023261]
大規模言語モデル(LLM)は、自然言語生成において印象的な能力を示している。
しかし、それらの出力品質は矛盾する可能性があり、論理形式(LF)から自然言語を生成する上での課題を提起する。
論文 参考訳(メタデータ) (2023-09-21T17:54:58Z) - Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural
Language Generation [68.9440575276396]
この調査は、人間のフィードバックを利用して自然言語生成を改善した最近の研究の概要を提供することを目的としている。
まず、フィードバックの形式化を包括的に導入し、この形式化に続いて既存の分類学研究を特定・整理する。
第二に、フィードバックを形式や目的によってどのように記述するかを議論し、フィードバック(トレーニングやデコード)を直接使用したり、フィードバックモデルをトレーニングしたりするための2つのアプローチについて取り上げる。
第3に、AIフィードバックの生まれたばかりの分野の概要を紹介します。これは、大きな言語モデルを利用して、一連の原則に基づいて判断し、必要最小限にします。
論文 参考訳(メタデータ) (2023-05-01T17:36:06Z) - e-ViL: A Dataset and Benchmark for Natural Language Explanations in
Vision-Language Tasks [52.918087305406296]
説明可能な視覚言語タスクを評価するベンチマークe-ViLを紹介します。
また、NLEで最大のデータセットであるe-SNLI-VEについても紹介する。
画像とテキストの共同埋め込みを学習するUNITERと、予め訓練された言語モデルであるGPT-2を組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-05-08T18:46:33Z) - Learning to Compare for Better Training and Evaluation of Open Domain
Natural Language Generation Models [23.62054164511058]
そこで本研究では,文のペアを細調整して比較することで,自然言語生成モデルを評価することを提案する。
完全に自己管理された方法でトレーニングできる一方で、人間の好みのアノテーションを少しだけ含んだモデルをさらに微調整することが可能です。
論文 参考訳(メタデータ) (2020-02-12T15:52:21Z) - Stochastic Natural Language Generation Using Dependency Information [0.7995360025953929]
本稿では,自然言語テキストを生成するコーパスベースモデルを提案する。
我々のモデルは、特徴集合を通じてトレーニングデータから依存関係を符号化し、与えられた意味表現のための新しい依存木を生成する。
本モデルでは, 品質だけでなく, 情報性, 自然性といった面においても, 高品質な発話を生成できることが示されている。
論文 参考訳(メタデータ) (2020-01-12T09:40:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。