論文の概要: Hallucination Reduction in Long Input Text Summarization
- arxiv url: http://arxiv.org/abs/2309.16781v1
- Date: Thu, 28 Sep 2023 18:22:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 16:47:59.340840
- Title: Hallucination Reduction in Long Input Text Summarization
- Title(参考訳): 長文要約における幻覚の低減
- Authors: Tohida Rehman, Ronit Mandal, Abhishek Agarwal, Debarshi Kumar Sanyal
- Abstract要約: テキスト要約における幻覚は、生成された要約の正確さと信頼性に重大な障害をもたらす。
我々は、Longformer-Decoder(LED)モデルの微調整に、データフィルタリングとジョイントエンティティと要約生成(JAENS)の技法を取り入れた。
実験の結果, 微調整LEDモデルでは, 紙の抽象的な生成が良好であることがわかった。
- 参考スコア(独自算出の注目度): 2.6745438139282283
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Hallucination in text summarization refers to the phenomenon where the model
generates information that is not supported by the input source document.
Hallucination poses significant obstacles to the accuracy and reliability of
the generated summaries. In this paper, we aim to reduce hallucinated outputs
or hallucinations in summaries of long-form text documents. We have used the
PubMed dataset, which contains long scientific research documents and their
abstracts. We have incorporated the techniques of data filtering and joint
entity and summary generation (JAENS) in the fine-tuning of the Longformer
Encoder-Decoder (LED) model to minimize hallucinations and thereby improve the
quality of the generated summary. We have used the following metrics to measure
factual consistency at the entity level: precision-source, and F1-target. Our
experiments show that the fine-tuned LED model performs well in generating the
paper abstract. Data filtering techniques based on some preprocessing steps
reduce entity-level hallucinations in the generated summaries in terms of some
of the factual consistency metrics.
- Abstract(参考訳): テキスト要約における幻覚とは、入力元文書がサポートしていない情報をモデルが生成する現象を指す。
幻覚は生成された要約の正確さと信頼性に大きな障害となる。
本稿では,長文文書の要約における幻覚出力や幻覚の低減を目的とする。
我々は、長い科学研究資料とそれらの要約を含むPubMedデータセットを使用した。
我々は,Longformer Encoder-Decoder(LED)モデルの微調整にデータフィルタリングとジョイントエンティティと要約生成(JAENS)の技術を取り入れ,幻覚を最小化し,生成した要約の品質を向上させる。
私たちは、エンティティレベルでの事実整合性を測定するために、以下の指標を使用しました。
実験の結果, 微調整LEDモデルは, 紙の抽象的な生成に優れていた。
いくつかの前処理ステップに基づくデータフィルタリング技術は、事実整合性メトリクスのいくつかの観点から生成された要約のエンティティレベルの幻覚を減少させる。
関連論文リスト
- ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models [65.12177400764506]
大規模言語モデル (LLM) は、様々な領域や広範囲のアプリケーションにまたがる、長い形式の質問応答タスクにおいて幻覚を示す。
現在の幻覚検出と緩和データセットはドメインやサイズによって制限されている。
本稿では,幻覚アノテーションデータセットを同時に,段階的にスケールアップする反復的自己学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-05T17:56:38Z) - German also Hallucinates! Inconsistency Detection in News Summaries with the Absinth Dataset [3.5206745486062636]
この研究は、ドイツのニュース要約における幻覚検出のための手動注釈付きデータセットであるabsinthを提示する。
我々は,ドイツ語における幻覚検出のさらなる研究を促進するために,アブシンスデータセットをオープンソース化し,公開する。
論文 参考訳(メタデータ) (2024-03-06T14:37:30Z) - Investigating Hallucinations in Pruned Large Language Models for Abstractive Summarization [37.55557353462219]
プルーニング(Pruning)は、余分な重みを取り除くことによってモデルサイズを減らす手法であり、より効率的なスパース推論を可能にする。
本稿では,5つの要約データセット,2つの最先端プルーニング手法,および5つの命令調整LDMに関する実証的研究を行う。
驚いたことに、幻覚はオリジナルのモデルに比べて、刈り取られたLLMからそれほど多くない。
論文 参考訳(メタデータ) (2023-11-15T19:49:24Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z) - Do Multi-Document Summarization Models Synthesize? [24.170828395176727]
我々は、一連の要約モデルを用いて、意見とエビデンス合成データセットに関する実験を行う。
既存のモデルは部分的には合成を行うが、不完全である。
本稿では,モデル合成機能を改善するための,シンプルで汎用的で効果的な手法を提案する。
論文 参考訳(メタデータ) (2023-01-31T18:40:46Z) - Mutual Information Alleviates Hallucinations in Abstractive
Summarization [73.48162198041884]
モデルが生成中の幻覚コンテンツにより多くの確率を割り当てる可能性が著しく高いという単純な基準を見いだす。
この発見は幻覚の潜在的な説明を提供する:モデルは、継続について不確実な場合には、高い限界確率のテキストを好むことをデフォルトとする。
そこで本研究では,ターゲットトークンの正当性ではなく,ソースとターゲットトークンのポイントワイドな相互情報の最適化に切り替える復号手法を提案する。
論文 参考訳(メタデータ) (2022-10-24T13:30:54Z) - Don't Say What You Don't Know: Improving the Consistency of Abstractive
Summarization by Constraining Beam Search [54.286450484332505]
本研究は,幻覚とトレーニングデータの関連性を解析し,学習対象の要約を学習した結果,モデルが幻覚を呈する証拠を見出した。
本稿では,ビーム探索を制約して幻覚を回避し,変換器をベースとした抽象要約器の整合性を向上させる新しい復号法であるPINOCCHIOを提案する。
論文 参考訳(メタデータ) (2022-03-16T07:13:52Z) - Improving Faithfulness in Abstractive Summarization with Contrast
Candidate Generation and Selection [54.38512834521367]
モデル非依存後処理技術としてのコントラスト候補生成と選択について検討する。
代替候補要約を生成して判別補正モデルを学習する。
このモデルを使用して、最終的な出力サマリーとして最適な候補を選択する。
論文 参考訳(メタデータ) (2021-04-19T05:39:24Z) - Entity-level Factual Consistency of Abstractive Text Summarization [26.19686599842915]
抽象要約の重要な課題は、生成した要約の原文書に対する事実的一貫性を保証することである。
生成した要約の実体レベルの事実整合性を定量化するための新しいメトリクスセットを提案する。
論文 参考訳(メタデータ) (2021-02-18T03:07:28Z) - Detecting Hallucinated Content in Conditional Neural Sequence Generation [165.68948078624499]
出力シーケンスの各トークンが(入力に含まれていない)幻覚化されているかどうかを予測するタスクを提案する。
また、合成データに微調整された事前学習言語モデルを用いて幻覚を検出する方法についても紹介する。
論文 参考訳(メタデータ) (2020-11-05T00:18:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。