論文の概要: Hallucination Reduction in Long Input Text Summarization
- arxiv url: http://arxiv.org/abs/2309.16781v1
- Date: Thu, 28 Sep 2023 18:22:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 16:47:59.340840
- Title: Hallucination Reduction in Long Input Text Summarization
- Title(参考訳): 長文要約における幻覚の低減
- Authors: Tohida Rehman, Ronit Mandal, Abhishek Agarwal, Debarshi Kumar Sanyal
- Abstract要約: テキスト要約における幻覚は、生成された要約の正確さと信頼性に重大な障害をもたらす。
我々は、Longformer-Decoder(LED)モデルの微調整に、データフィルタリングとジョイントエンティティと要約生成(JAENS)の技法を取り入れた。
実験の結果, 微調整LEDモデルでは, 紙の抽象的な生成が良好であることがわかった。
- 参考スコア(独自算出の注目度): 2.6745438139282283
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Hallucination in text summarization refers to the phenomenon where the model
generates information that is not supported by the input source document.
Hallucination poses significant obstacles to the accuracy and reliability of
the generated summaries. In this paper, we aim to reduce hallucinated outputs
or hallucinations in summaries of long-form text documents. We have used the
PubMed dataset, which contains long scientific research documents and their
abstracts. We have incorporated the techniques of data filtering and joint
entity and summary generation (JAENS) in the fine-tuning of the Longformer
Encoder-Decoder (LED) model to minimize hallucinations and thereby improve the
quality of the generated summary. We have used the following metrics to measure
factual consistency at the entity level: precision-source, and F1-target. Our
experiments show that the fine-tuned LED model performs well in generating the
paper abstract. Data filtering techniques based on some preprocessing steps
reduce entity-level hallucinations in the generated summaries in terms of some
of the factual consistency metrics.
- Abstract(参考訳): テキスト要約における幻覚とは、入力元文書がサポートしていない情報をモデルが生成する現象を指す。
幻覚は生成された要約の正確さと信頼性に大きな障害となる。
本稿では,長文文書の要約における幻覚出力や幻覚の低減を目的とする。
我々は、長い科学研究資料とそれらの要約を含むPubMedデータセットを使用した。
我々は,Longformer Encoder-Decoder(LED)モデルの微調整にデータフィルタリングとジョイントエンティティと要約生成(JAENS)の技術を取り入れ,幻覚を最小化し,生成した要約の品質を向上させる。
私たちは、エンティティレベルでの事実整合性を測定するために、以下の指標を使用しました。
実験の結果, 微調整LEDモデルは, 紙の抽象的な生成に優れていた。
いくつかの前処理ステップに基づくデータフィルタリング技術は、事実整合性メトリクスのいくつかの観点から生成された要約のエンティティレベルの幻覚を減少させる。
関連論文リスト
- German also Hallucinates! Inconsistency Detection in News Summaries with the Absinth Dataset [3.5206745486062636]
この研究は、ドイツのニュース要約における幻覚検出のための手動注釈付きデータセットであるabsinthを提示する。
我々は,ドイツ語における幻覚検出のさらなる研究を促進するために,アブシンスデータセットをオープンソース化し,公開する。
論文 参考訳(メタデータ) (2024-03-06T14:37:30Z) - Investigating Hallucinations in Pruned Large Language Models for
Abstractive Summarization [41.02676611256742]
プルーニング(Pruning)は、余分な重みを取り除くことによってモデルサイズを減らす手法であり、より効率的なスパース推論を可能にする。
本稿では,5つの要約データセット,2つの最先端プルーニング手法,および5つの命令調整LDMに関する実証的研究を行う。
驚いたことに、刈り取られたLLMの幻覚はオリジナルのモデルよりもあまり多くない。
論文 参考訳(メタデータ) (2023-11-15T19:49:24Z) - Correction with Backtracking Reduces Hallucination in Summarization [30.827500697135118]
本稿では,抽象的な要約における幻覚を低減するため,シンプルだが効率的な手法であるCoBaを紹介する。
アプローチは幻覚検出と緩和という2つのステップに基づいている。
その結果,CoBaは幻覚の低減に有効かつ効率的であり,適応性と柔軟性に優れていた。
論文 参考訳(メタデータ) (2023-10-24T20:48:11Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language
Models [63.973142426228016]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z) - Mutual Information Alleviates Hallucinations in Abstractive
Summarization [73.48162198041884]
モデルが生成中の幻覚コンテンツにより多くの確率を割り当てる可能性が著しく高いという単純な基準を見いだす。
この発見は幻覚の潜在的な説明を提供する:モデルは、継続について不確実な場合には、高い限界確率のテキストを好むことをデフォルトとする。
そこで本研究では,ターゲットトークンの正当性ではなく,ソースとターゲットトークンのポイントワイドな相互情報の最適化に切り替える復号手法を提案する。
論文 参考訳(メタデータ) (2022-10-24T13:30:54Z) - Don't Say What You Don't Know: Improving the Consistency of Abstractive
Summarization by Constraining Beam Search [54.286450484332505]
本研究は,幻覚とトレーニングデータの関連性を解析し,学習対象の要約を学習した結果,モデルが幻覚を呈する証拠を見出した。
本稿では,ビーム探索を制約して幻覚を回避し,変換器をベースとした抽象要約器の整合性を向上させる新しい復号法であるPINOCCHIOを提案する。
論文 参考訳(メタデータ) (2022-03-16T07:13:52Z) - Improving Faithfulness in Abstractive Summarization with Contrast
Candidate Generation and Selection [54.38512834521367]
モデル非依存後処理技術としてのコントラスト候補生成と選択について検討する。
代替候補要約を生成して判別補正モデルを学習する。
このモデルを使用して、最終的な出力サマリーとして最適な候補を選択する。
論文 参考訳(メタデータ) (2021-04-19T05:39:24Z) - A Token-level Reference-free Hallucination Detection Benchmark for
Free-form Text Generation [50.55448707570669]
本稿ではトークンレベルの参照なし幻覚検出タスクとHaDesというアノテーション付きデータセットを提案する。
このデータセットを作成するために、まず英語のウィキペディアから抽出された大量のテキストセグメントを摂り込み、それからクラウドソースアノテーションで検証する。
論文 参考訳(メタデータ) (2021-04-18T04:09:48Z) - Entity-level Factual Consistency of Abstractive Text Summarization [26.19686599842915]
抽象要約の重要な課題は、生成した要約の原文書に対する事実的一貫性を保証することである。
生成した要約の実体レベルの事実整合性を定量化するための新しいメトリクスセットを提案する。
論文 参考訳(メタデータ) (2021-02-18T03:07:28Z) - Detecting Hallucinated Content in Conditional Neural Sequence Generation [165.68948078624499]
出力シーケンスの各トークンが(入力に含まれていない)幻覚化されているかどうかを予測するタスクを提案する。
また、合成データに微調整された事前学習言語モデルを用いて幻覚を検出する方法についても紹介する。
論文 参考訳(メタデータ) (2020-11-05T00:18:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。