論文の概要: Multilingual Fine-Grained News Headline Hallucination Detection
- arxiv url: http://arxiv.org/abs/2407.15975v1
- Date: Mon, 22 Jul 2024 18:37:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 21:25:09.936007
- Title: Multilingual Fine-Grained News Headline Hallucination Detection
- Title(参考訳): 多言語微粒ニュースヘッドラインの幻覚検出
- Authors: Jiaming Shen, Tianqi Liu, Jialu Liu, Zhen Qin, Jay Pavagadhi, Simon Baumgartner, Michael Bendersky,
- Abstract要約: 複数言語できめ細かなニュース見出しの幻覚検出データセットについて紹介する。
このデータセットには5つの言語で1万以上のペアが含まれており、それぞれに専門家による詳細な幻覚タイプが注釈付けされている。
本稿では,言語に依存した実演選択と粗粒化プロンプトという2つの新しい手法を提案する。
- 参考スコア(独自算出の注目度): 40.62136051552646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The popularity of automated news headline generation has surged with advancements in pre-trained language models. However, these models often suffer from the ``hallucination'' problem, where the generated headline is not fully supported by its source article. Efforts to address this issue have predominantly focused on English, using over-simplistic classification schemes that overlook nuanced hallucination types. In this study, we introduce the first multilingual, fine-grained news headline hallucination detection dataset that contains over 11 thousand pairs in 5 languages, each annotated with detailed hallucination types by experts. We conduct extensive experiments on this dataset under two settings. First, we implement several supervised fine-tuning approaches as preparatory solutions and demonstrate this dataset's challenges and utilities. Second, we test various large language models' in-context learning abilities and propose two novel techniques, language-dependent demonstration selection and coarse-to-fine prompting, to boost the few-shot hallucination detection performance in terms of the example-F1 metric. We release this dataset to foster further research in multilingual, fine-grained headline hallucination detection.
- Abstract(参考訳): 自動ニュース見出し生成の人気は、事前訓練された言語モデルの発展とともに高まっている。
しかしながら、これらのモデルは、生成した見出しがソース記事によって完全にサポートされない‘hallucination’問題に悩まされることが多い。
この問題に対処する努力は主に英語に焦点が当てられ、暗黙の幻覚のタイプを見渡す、過度に単純化された分類スキームを用いている。
本研究では,5言語で1万1千組以上を含む,多言語できめ細かなニュースヘッドライン幻覚検出データセットについて紹介する。
このデータセットを2つの設定で広範囲に実験する。
まず、教師付き微調整アプローチを準備ソリューションとして実装し、このデータセットの課題とユーティリティを実証する。
第2に,多種多様な大規模言語モデルの文脈内学習能力を検証し,言語に依存した実演選択と粗い擬似プロンプトという2つの新しい手法を提案する。
我々はこのデータセットを公開し、多言語・微粒なヘッドライン幻覚検出のさらなる研究を促進する。
関連論文リスト
- Pre-Training Multimodal Hallucination Detectors with Corrupted Grounding Data [4.636499986218049]
マルチモーダル言語モデルは、その出力に幻覚を示し、信頼性を制限できる。
本稿では, 崩壊した地盤データを作成することにより, これらのモデルのサンプル効率を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T20:11:00Z) - Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [48.065569871444275]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z) - German also Hallucinates! Inconsistency Detection in News Summaries with the Absinth Dataset [3.5206745486062636]
この研究は、ドイツのニュース要約における幻覚検出のための手動注釈付きデータセットであるabsinthを提示する。
我々は,ドイツ語における幻覚検出のさらなる研究を促進するために,アブシンスデータセットをオープンソース化し,公開する。
論文 参考訳(メタデータ) (2024-03-06T14:37:30Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z) - Hallucinations in Large Multilingual Translation Models [70.10455226752015]
大規模多言語機械翻訳システムでは、多数の言語間で直接翻訳できることが顕著に示されている。
野生に配備されると、これらのモデルが幻覚翻訳を生成し、ユーザーの信頼を著しく損なう可能性があり、安全性の懸念が高まる。
幻覚に関する既存の研究は、主に高ソース言語で訓練された小さなバイリンガルモデルに焦点を当てている。
論文 参考訳(メタデータ) (2023-03-28T16:17:59Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - "Why is this misleading?": Detecting News Headline Hallucinations with
Explanations [30.52506534164537]
幻覚検出に対処するため,ExHalderという新しいフレームワークを提案する。
ExHalderは、パブリック自然言語推論データセットからの知識をニュースドメインに適応させる。
幻覚検出結果を説明するために、自然言語文を生成することを学ぶ。
論文 参考訳(メタデータ) (2023-02-12T04:21:49Z) - Embedding Hallucination for Few-Shot Language Fine-tuning [14.244787327283335]
本研究では,組込みラベルペアを生成する埋め込み幻覚(EmbedHalluc)法を提案する。
実験の結果,提案手法は様々な言語タスクに有効であり,現在の微調整法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-05-03T04:55:50Z) - Detecting Hallucinated Content in Conditional Neural Sequence Generation [165.68948078624499]
出力シーケンスの各トークンが(入力に含まれていない)幻覚化されているかどうかを予測するタスクを提案する。
また、合成データに微調整された事前学習言語モデルを用いて幻覚を検出する方法についても紹介する。
論文 参考訳(メタデータ) (2020-11-05T00:18:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。