論文の概要: HaRiM$^+$: Evaluating Summary Quality with Hallucination Risk
- arxiv url: http://arxiv.org/abs/2211.12118v1
- Date: Tue, 22 Nov 2022 09:36:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 17:35:43.916655
- Title: HaRiM$^+$: Evaluating Summary Quality with Hallucination Risk
- Title(参考訳): HaRiM$^+$: 幻覚リスクを伴う概要品質の評価
- Authors: Seonil Son, Junsoo Park, Jeong-in Hwang, Junghwa Lee, Hyungjong Noh,
Yeonsoo Lee
- Abstract要約: 本稿では,トークン確率に基づいて幻覚リスクを計算するために,既成の要約モデルのみを必要とする基準自由度HaRiM+を提案する。
要約品質評価において,HaRiM+は,FRANK,QAGS,SummEvalの3つの要約品質アノテーションセットに対して,人間の判断に対する最先端の相関を記録する。
- 参考スコア(独自算出の注目度): 0.6617666829632144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the challenges of developing a summarization model arises from the
difficulty in measuring the factual inconsistency of the generated text. In
this study, we reinterpret the decoder overconfidence-regularizing objective
suggested in (Miao et al., 2021) as a hallucination risk measurement to better
estimate the quality of generated summaries. We propose a reference-free
metric, HaRiM+, which only requires an off-the-shelf summarization model to
compute the hallucination risk based on token likelihoods. Deploying it
requires no additional training of models or ad-hoc modules, which usually need
alignment to human judgments. For summary-quality estimation, HaRiM+ records
state-of-the-art correlation to human judgment on three summary-quality
annotation sets: FRANK, QAGS, and SummEval. We hope that our work, which merits
the use of summarization models, facilitates the progress of both automated
evaluation and generation of summary.
- Abstract(参考訳): 要約モデルを開発する際の課題の1つは、生成されたテキストの現実的矛盾を測定することの難しさから生じる。
本研究では,(miao et al., 2021) が提案する信頼感過剰化目標を幻覚的リスク測定として再解釈し,生成した要約の質をよりよく推定する。
本稿では,トークン確率に基づいて幻覚リスクを計算するために,既製の要約モデルのみを必要とする基準フリー計量HaRiM+を提案する。
デプロイにはモデルやアドホックモジュールの追加トレーニングは必要ありません。
要約品質評価において,HaRiM+は,FRANK,QAGS,SummEvalの3つの要約品質アノテーションセットに対して,人間の判断に対する最先端の相関を記録する。
要約モデルの利用に資する私たちの作業が,自動評価と要約生成の両方の進展を促進することを願っています。
関連論文リスト
- What's Wrong? Refining Meeting Summaries with LLM Feedback [6.532478490187084]
本稿では,人間レビュープロセスを模倣した2段階プロセスを用いて,会議要約のためのマルチLLM補正手法を提案する。
QMSum Mistakeは、人によって注釈付けされた会議要約を9種類のエラータイプで自動生成する200のデータセットである。
特定ミスを実用的なフィードバックに変換することで,関連性,情報性,簡潔性,一貫性によって測定された要約の質を向上させる。
論文 参考訳(メタデータ) (2024-07-16T17:10:16Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - AMRFact: Enhancing Summarization Factuality Evaluation with AMR-Driven Negative Samples Generation [57.8363998797433]
抽象的意味表現(AMR)を用いた摂動要約を生成するフレームワークであるAMRFactを提案する。
提案手法は,AMRグラフに一貫した要約を解析し,制御された事実不整合を注入して負の例を生成し,一貫性のない事実不整合要約を高い誤差型カバレッジで生成する。
論文 参考訳(メタデータ) (2023-11-16T02:56:29Z) - How Ready are Pre-trained Abstractive Models and LLMs for Legal Case
Judgement Summarization? [4.721618284417204]
近年、抽象的な要約モデルが人気を集めている。
法的なドメイン固有の事前訓練された抽象要約モデルが利用可能になった。
汎用ドメイン事前訓練大型言語モデル(LLM)は高品質なテキストを生成することが知られている。
論文 参考訳(メタデータ) (2023-06-02T03:16:19Z) - Towards Improving Faithfulness in Abstractive Summarization [37.19777407790153]
本稿では,抽象的な要約における忠実度を改善するために,FES(Fithfulness Enhanced Summarization Model)を提案する。
我々のモデルはCNN/DMとXSumの実験において強いベースラインを上回ります。
論文 参考訳(メタデータ) (2022-10-04T19:52:09Z) - SNaC: Coherence Error Detection for Narrative Summarization [73.48220043216087]
SNaCは長文の微粒化アノテーションに根ざした物語コヒーレンス評価フレームワークである。
本稿では,生成した物語要約におけるコヒーレンスエラーの分類法を開発し,150冊の本や映画の脚本要約にまたがる6.6k文のスパンレベルアノテーションを収集する。
我々の研究は、最先端の要約モデルによって生成されるコヒーレンスエラーの最初の特徴と、群衆アノテータからコヒーレンス判断を引き出すためのプロトコルを提供する。
論文 参考訳(メタデータ) (2022-05-19T16:01:47Z) - Multi-Fact Correction in Abstractive Text Summarization [98.27031108197944]
Span-Factは、質問応答モデルから学んだ知識を活用して、スパン選択によるシステム生成サマリーの補正を行う2つの事実補正モデルのスイートである。
我々のモデルは、ソースコードのセマンティック一貫性を確保するために、反復的または自動回帰的にエンティティを置き換えるために、シングルまたはマルチマスキング戦略を採用している。
実験の結果,自動測定と人的評価の両面において,要約品質を犠牲にすることなく,システム生成要約の事実整合性を大幅に向上させることができた。
論文 参考訳(メタデータ) (2020-10-06T02:51:02Z) - Unsupervised Reference-Free Summary Quality Evaluation via Contrastive
Learning [66.30909748400023]
教師なしコントラスト学習により,参照要約を使わずに要約品質を評価することを提案する。
具体的には、BERTに基づく言語的品質と意味情報の両方をカバーする新しい指標を設計する。
ニューズルームとCNN/デイリーメールの実験では,新たな評価手法が参照サマリーを使わずに他の指標よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-10-05T05:04:14Z) - SummEval: Re-evaluating Summarization Evaluation [169.622515287256]
総合的かつ一貫した方法で14の自動評価指標を再評価する。
上記の自動評価指標を用いて,最近の要約モデル23をベンチマークした。
我々は、CNN/DailyMailニュースデータセットでトレーニングされたモデルによって生成された最大の要約コレクションを組み立てる。
論文 参考訳(メタデータ) (2020-07-24T16:25:19Z) - On Faithfulness and Factuality in Abstractive Summarization [17.261247316769484]
我々は抽象文書要約のためのニューラルテキスト生成モデルの制約を解析した。
これらのモデルは、入力文書に反するコンテンツを幻覚させる傾向にあることがわかった。
テキスト・エンタテインメントの指標は,標準指標よりも忠実度と相関性が高いことを示す。
論文 参考訳(メタデータ) (2020-05-02T00:09:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。