論文の概要: A Token-level Reference-free Hallucination Detection Benchmark for
Free-form Text Generation
- arxiv url: http://arxiv.org/abs/2104.08704v1
- Date: Sun, 18 Apr 2021 04:09:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 14:42:39.356277
- Title: A Token-level Reference-free Hallucination Detection Benchmark for
Free-form Text Generation
- Title(参考訳): 自由形式テキスト生成のためのトークンレベルの参照なし幻覚検出ベンチマーク
- Authors: Tianyu Liu, Yizhe Zhang, Chris Brockett, Yi Mao, Zhifang Sui, Weizhu
Chen and Bill Dolan
- Abstract要約: 本稿ではトークンレベルの参照なし幻覚検出タスクとHaDesというアノテーション付きデータセットを提案する。
このデータセットを作成するために、まず英語のウィキペディアから抽出された大量のテキストセグメントを摂り込み、それからクラウドソースアノテーションで検証する。
- 参考スコア(独自算出の注目度): 50.55448707570669
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large pretrained generative models like GPT-3 often suffer from hallucinating
non-existent or incorrect content, which undermines their potential merits in
real applications. Existing work usually attempts to detect these
hallucinations based on a corresponding oracle reference at a sentence or
document level. However ground-truth references may not be readily available
for many free-form text generation applications, and sentence- or
document-level detection may fail to provide the fine-grained signals that
would prevent fallacious content in real time. As a first step to addressing
these issues, we propose a novel token-level, reference-free hallucination
detection task and an associated annotated dataset named HaDes (HAllucination
DEtection dataSet). To create this dataset, we first perturb a large number of
text segments extracted from English language Wikipedia, and then verify these
with crowd-sourced annotations. To mitigate label imbalance during annotation,
we utilize an iterative model-in-loop strategy. We conduct comprehensive data
analyses and create multiple baseline models.
- Abstract(参考訳): GPT-3のような事前訓練された大規模な生成モデルは、しばしば幻覚的でないまたは誤った内容に悩まされる。
既存の作業は通常、これらの幻覚を、対応するoracleリファレンスに基づいて文や文書レベルで検出しようとする。
しかし、多くの自由形式のテキスト生成アプリケーションでは、基盤となる参照は簡単には利用できず、文章や文書レベルの検出では、リアルタイムに不適切なコンテンツを防止できるきめ細かい信号を提供できない場合がある。
これらの問題に対処する第一歩として,トークンレベルの参照なし幻覚検出タスクとHaDes(Hallucination Detection dataSet)というアノテーション付きデータセットを提案する。
このデータセットを作成するために、まず英語のWikipediaから抽出された大量のテキストセグメントを摂動し、クラウドソースアノテーションで検証する。
アノテーション中のラベルの不均衡を軽減するために,反復型ループ戦略を利用する。
包括的データ分析を行い、複数のベースラインモデルを作成します。
関連論文リスト
- Citation-Enhanced Generation for LLM-based Chatbots [11.973280288131225]
大規模言語モデル(LLM)は多様なシナリオにまたがる強力な汎用知性を示す。
幻覚コンテンツは反応で生成され、適用性が著しく制限される。
提案手法は,検索議論と組み合わせた,ポストホックなCitation-Enhanced Generation手法である。
論文 参考訳(メタデータ) (2024-02-25T11:24:41Z) - Critic-Driven Decoding for Mitigating Hallucinations in Data-to-text
Generation [5.304395026626743]
入力に埋もれていないテキストの幻覚は、ニューラルネットワークによるテキスト生成においてよく知られた問題である。
生成言語モデルの確率的出力と特別な「テキスト評論家」の出力を組み合わせることで幻覚を緩和する新しい方法を提案する。
本手法では,LMのアーキテクチャやトレーニング手順の変更は不要である。
論文 参考訳(メタデータ) (2023-10-25T20:05:07Z) - Trapping LLM Hallucinations Using Tagged Context Prompts [11.655802601887197]
本稿では,大規模言語モデルがドメイン知識の外部で実行された場合に,インスタンスを認識・フラグする新しい手法を提案する。
組込みタグと組み合わされたコンテキストを用いることで,生成言語モデル内の幻覚に対処できることが判明した。
論文 参考訳(メタデータ) (2023-06-09T17:48:54Z) - SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for
Generative Large Language Models [55.60306377044225]
「SelfCheckGPT」は、ブラックボックスモデルの応答をファクトチェックする単純なサンプリングベースアプローチである。
本稿では,GPT-3を用いてWikiBioデータセットから個人に関するパスを生成する手法について検討する。
論文 参考訳(メタデータ) (2023-03-15T19:31:21Z) - On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文 参考訳(メタデータ) (2022-12-20T06:24:25Z) - Mutual Information Alleviates Hallucinations in Abstractive
Summarization [73.48162198041884]
モデルが生成中の幻覚コンテンツにより多くの確率を割り当てる可能性が著しく高いという単純な基準を見いだす。
この発見は幻覚の潜在的な説明を提供する:モデルは、継続について不確実な場合には、高い限界確率のテキストを好むことをデフォルトとする。
そこで本研究では,ターゲットトークンの正当性ではなく,ソースとターゲットトークンのポイントワイドな相互情報の最適化に切り替える復号手法を提案する。
論文 参考訳(メタデータ) (2022-10-24T13:30:54Z) - Controlling Hallucinations at Word Level in Data-to-Text Generation [10.59137381324694]
最先端のニューラルモデルには、アウトプットに誤解を招くステートメントが含まれている。
本稿では,単語レベルのラベルを利用して各トレーニングインスタンスの関連部分を学習できるマルチブランチデコーダを提案する。
我々のモデルは、生成したテキストの流布とコヒーレンスを維持しながら、幻覚を減らし制御することができる。
論文 参考訳(メタデータ) (2021-02-04T18:58:28Z) - Detecting Hallucinated Content in Conditional Neural Sequence Generation [165.68948078624499]
出力シーケンスの各トークンが(入力に含まれていない)幻覚化されているかどうかを予測するタスクを提案する。
また、合成データに微調整された事前学習言語モデルを用いて幻覚を検出する方法についても紹介する。
論文 参考訳(メタデータ) (2020-11-05T00:18:53Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。