論文の概要: Fine-grained and Explainable Factuality Evaluation for Multimodal
Summarization
- arxiv url: http://arxiv.org/abs/2402.11414v1
- Date: Sun, 18 Feb 2024 01:03:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 21:21:28.825249
- Title: Fine-grained and Explainable Factuality Evaluation for Multimodal
Summarization
- Title(参考訳): マルチモーダル要約のためのきめ細かな説明可能なファクタリティ評価
- Authors: Liqiang Jing, Jingxuan Zuo, Yue Zhang
- Abstract要約: マルチモーダル要約は入力テキストと画像に基づいて簡潔な要約を生成することを目的としている。
マルチモーダル要約モデルの現実性を評価するために,2つのきめ細かな説明可能な評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 15.438625459637896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal summarization aims to generate a concise summary based on the
input text and image. However, the existing methods potentially suffer from
unfactual output. To evaluate the factuality of multimodal summarization
models, we propose two fine-grained and explainable evaluation frameworks
(FALLACIOUS) for different application scenarios, i.e. reference-based
factuality evaluation framework and reference-free factuality evaluation
framework. Notably, the reference-free factuality evaluation framework doesn't
need ground truth and hence it has a wider application scenario. To evaluate
the effectiveness of the proposed frameworks, we compute the correlation
between our frameworks and the other metrics. The experimental results show the
effectiveness of our proposed method. We will release our code and dataset via
github.
- Abstract(参考訳): マルチモーダル要約は入力テキストと画像に基づいて簡潔な要約を生成することを目的としている。
しかし、既存の手法は非実効的な出力に悩まされる可能性がある。
マルチモーダル要約モデルの事実性を評価するため、異なるアプリケーションシナリオ、すなわち参照ベース事実性評価フレームワークと参照フリー事実性評価フレームワークに対して、細粒度で説明可能な2つの評価フレームワーク(FALLACIOUS)を提案する。
特に、参照フリーの事実性評価フレームワークは、基礎的な真実を必要としないため、より広いアプリケーションシナリオを持つ。
提案フレームワークの有効性を評価するために,フレームワークと他のメトリクスの相関度を計算する。
実験の結果,提案手法の有効性が示された。
コードとデータセットをgithub経由でリリースします。
関連論文リスト
- FreeEval: A Modular Framework for Trustworthy and Efficient Evaluation of Large Language Models [36.273451767886726]
FreeEvalは、大規模言語モデルの信頼性と効率的な自動評価を可能にするために設計された、モジュール化されたスケーラブルなフレームワークである。
FreeEvalの統一された抽象化は、統合を単純化し、多様な評価方法論の透明性を改善します。
このフレームワークは、人間の評価やデータ汚染検出などのメタ評価技術を統合し、動的評価モジュールとともに、評価結果の公平性を高める。
論文 参考訳(メタデータ) (2024-04-09T04:17:51Z) - MATEval: A Multi-Agent Discussion Framework for Advancing Open-Ended Text Evaluation [22.19073789961769]
生成型大規模言語モデル(LLM)は注目に値するが、これらのモデルによって生成されたテキストの品質は、しばしば永続的な問題を示す。
MATEval: "Multi-Agent Text Evaluation framework"を提案する。
本フレームワークは,評価プロセスの深度と広さを高めるために,自己回帰と整合性戦略とフィードバック機構を取り入れている。
論文 参考訳(メタデータ) (2024-03-28T10:41:47Z) - CheckEval: Robust Evaluation Framework using Large Language Model via Checklist [6.713203569074019]
大規模言語モデルを用いた新しい評価フレームワークであるCheckEvalを紹介する。
CheckEvalは、現在の評価方法における曖昧さと一貫性の課題に対処する。
論文 参考訳(メタデータ) (2024-03-27T17:20:39Z) - FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - End-to-End Evaluation for Low-Latency Simultaneous Speech Translation [56.76828917401644]
本稿では,低遅延音声翻訳の様々な側面を現実的な条件下で実行し,評価するための第1の枠組みを提案する。
これには、オーディオのセグメンテーションと、異なるコンポーネントの実行時間が含まれる。
また、このフレームワークを用いて低遅延音声翻訳の異なるアプローチを比較する。
論文 参考訳(メタデータ) (2023-08-07T09:06:20Z) - Reference Matters: Benchmarking Factual Error Correction for Dialogue
Summarization with Fine-grained Evaluation Framework [45.80315799254377]
4000項目を含む対話要約のためのFECデータセットを手作業でアノテートするのは初めてである。
異なるエラーカテゴリにおけるFECモデルの性能を自動的に評価する、きめ細かい評価フレームワークであるFERRANTIを提案する。
論文 参考訳(メタデータ) (2023-06-08T11:41:39Z) - UMSE: Unified Multi-scenario Summarization Evaluation [52.60867881867428]
要約品質評価は、テキスト要約における非自明なタスクである。
統一多シナリオ要約評価モデル(UMSE)を提案する。
UMSEは3つの評価シナリオで使用できる能力に係わる最初の統合要約評価フレームワークである。
論文 参考訳(メタデータ) (2023-05-26T12:54:44Z) - Better Understanding Differences in Attribution Methods via Systematic
Evaluations [77.1487219861185]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
これらの評価手法を用いて、広範囲のモデルにおいて広く用いられている属性手法の長所と短所について検討する。
論文 参考訳(メタデータ) (2023-03-21T14:24:58Z) - Evaluating and Improving Factuality in Multimodal Abstractive
Summarization [91.46015013816083]
そこで我々は,CLIPBERTScoreを提案する。
ゼロショットにおけるこの2つの指標の単純な組み合わせは、文書要約のための既存の事実度指標よりも高い相関性が得られることを示す。
本分析は,CLIPBERTScoreとそのコンポーネントの信頼性と高い相関性を示す。
論文 参考訳(メタデータ) (2022-11-04T16:50:40Z) - Towards Better Understanding Attribution Methods [77.1487219861185]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
また,いくつかの属性法の性能を著しく向上する処理後平滑化ステップを提案する。
論文 参考訳(メタデータ) (2022-05-20T20:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。