Fugu-MT 論文翻訳(概要): Fine-grained and Explainable Factuality Evaluation for Multimodal Summarization

論文の概要: Fine-grained and Explainable Factuality Evaluation for Multimodal Summarization

arxiv url: http://arxiv.org/abs/2402.11414v1
Date: Sun, 18 Feb 2024 01:03:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-20 21:21:28.825249
Title: Fine-grained and Explainable Factuality Evaluation for Multimodal Summarization
Title（参考訳）: マルチモーダル要約のためのきめ細かな説明可能なファクタリティ評価
Authors: Liqiang Jing, Jingxuan Zuo, Yue Zhang
Abstract要約: マルチモーダル要約は入力テキストと画像に基づいて簡潔な要約を生成することを目的としている。マルチモーダル要約モデルの現実性を評価するために,2つのきめ細かな説明可能な評価フレームワークを提案する。
参考スコア（独自算出の注目度）: 15.438625459637896
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal summarization aims to generate a concise summary based on the input text and image. However, the existing methods potentially suffer from unfactual output. To evaluate the factuality of multimodal summarization models, we propose two fine-grained and explainable evaluation frameworks (FALLACIOUS) for different application scenarios, i.e. reference-based factuality evaluation framework and reference-free factuality evaluation framework. Notably, the reference-free factuality evaluation framework doesn't need ground truth and hence it has a wider application scenario. To evaluate the effectiveness of the proposed frameworks, we compute the correlation between our frameworks and the other metrics. The experimental results show the effectiveness of our proposed method. We will release our code and dataset via github.
Abstract（参考訳）: マルチモーダル要約は入力テキストと画像に基づいて簡潔な要約を生成することを目的としている。しかし、既存の手法は非実効的な出力に悩まされる可能性がある。マルチモーダル要約モデルの事実性を評価するため、異なるアプリケーションシナリオ、すなわち参照ベース事実性評価フレームワークと参照フリー事実性評価フレームワークに対して、細粒度で説明可能な2つの評価フレームワーク(FALLACIOUS)を提案する。特に、参照フリーの事実性評価フレームワークは、基礎的な真実を必要としないため、より広いアプリケーションシナリオを持つ。提案フレームワークの有効性を評価するために,フレームワークと他のメトリクスの相関度を計算する。実験の結果,提案手法の有効性が示された。コードとデータセットをgithub経由でリリースします。

関連論文リスト

T2MBench: A Benchmark for Out-of-Distribution Text-to-Motion Generation [16.46757980287966]
OODテキスト・トゥ・モーション評価に特化して設計されたベンチマークを提案する。我々は1025のテキスト記述からなるOODプロンプトデータセットを構築した。実験結果から,テキスト・ツー・モーション・セマンティックアライメント,運動一般化性,身体的品質などの領域において,異なるベースラインモデルが強みを示すのに対し,ほとんどのモデルは細粒度精度評価による強靭な性能の達成に苦慮していることが明らかとなった。
論文参考訳（メタデータ） (2026-02-14T12:49:04Z)
Eval Factsheets: A Structured Framework for Documenting AI Evaluations [18.275882528334794]
我々は,AIシステム評価を文書化するためのフレームワークであるEval Factsheetsを紹介する。本フレームワークは,5つの基本次元にまたがって評価特性を整理する。 Eval Factsheetsは様々な評価パラダイムを効果的に捉えていることを示す。
論文参考訳（メタデータ） (2025-12-03T18:46:50Z)
AllSummedUp: un framework open-source pour comparer les metriques d'evaluation de resume [2.2153783542347805]
本稿では,自動要約評価における課題について検討する。 6つの代表的な指標で実施した実験に基づいて,文献における報告結果と実験環境における観察結果との間に有意な相違点が認められた。 SummEvalデータセットに適用された統一されたオープンソースフレームワークを導入し、評価指標の公平かつ透明な比較をサポートするように設計されている。
論文参考訳（メタデータ） (2025-08-29T08:05:00Z)
Exogenous Matching: Learning Good Proposals for Tractable Counterfactual Estimation [1.9662978733004601]
本稿では, 抽出可能かつ効率的な対実表現推定のための重要サンプリング手法を提案する。対物推定器の共通上限を最小化することにより、分散最小化問題を条件分布学習問題に変換する。構造因果モデル (Structure Causal Models, SCM) の様々なタイプと設定による実験による理論的結果の検証と, 対実推定タスクにおける性能の実証を行った。
論文参考訳（メタデータ） (2024-10-17T03:08:28Z)
Top-K Pairwise Ranking: Bridging the Gap Among Ranking-Based Measures for Multi-Label Classification [120.37051160567277]
本稿では,Top-K Pairwise Ranking(TKPR)という新しい尺度を提案する。一連の分析により、TKPRは既存のランキングベースの尺度と互換性があることが示されている。一方,データ依存縮約法という新しい手法に基づいて,提案手法の急激な一般化を確立する。
論文参考訳（メタデータ） (2024-07-09T09:36:37Z)
Improving the Validity and Practical Usefulness of AI/ML Evaluations Using an Estimands Framework [2.4861619769660637]
本稿では,国際臨床治験ガイドラインを応用した評価フレームワークを提案する。このフレームワークは、評価の推測と報告のための体系的な構造を提供する。我々は、このフレームワークが根底にある問題、その原因、潜在的な解決策を明らかにするのにどのように役立つかを実証する。
論文参考訳（メタデータ） (2024-06-14T18:47:37Z)
MATEval: A Multi-Agent Discussion Framework for Advancing Open-Ended Text Evaluation [22.19073789961769]
生成型大規模言語モデル(LLM)は注目に値するが、これらのモデルによって生成されたテキストの品質は、しばしば永続的な問題を示す。 MATEval: "Multi-Agent Text Evaluation framework"を提案する。本フレームワークは,評価プロセスの深度と広さを高めるために,自己回帰と整合性戦略とフィードバック機構を取り入れている。
論文参考訳（メタデータ） (2024-03-28T10:41:47Z)
CheckEval: Robust Evaluation Framework using Large Language Model via Checklist [6.713203569074019]
大規模言語モデルを用いた新しい評価フレームワークであるCheckEvalを紹介する。 CheckEvalは、現在の評価方法における曖昧さと一貫性の課題に対処する。
論文参考訳（メタデータ） (2024-03-27T17:20:39Z)
FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。 FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文参考訳（メタデータ） (2024-03-04T17:57:18Z)
End-to-End Evaluation for Low-Latency Simultaneous Speech Translation [55.525125193856084]
本稿では,低遅延音声翻訳の様々な側面を現実的な条件下で実行し,評価するための第1の枠組みを提案する。これには、オーディオのセグメンテーションと、異なるコンポーネントの実行時間が含まれる。また、このフレームワークを用いて低遅延音声翻訳の異なるアプローチを比較する。
論文参考訳（メタデータ） (2023-08-07T09:06:20Z)
Better Understanding Differences in Attribution Methods via Systematic Evaluations [57.35035463793008]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。これらの評価手法を用いて、広範囲のモデルにおいて広く用いられている属性手法の長所と短所について検討する。
論文参考訳（メタデータ） (2023-03-21T14:24:58Z)
Evaluating and Improving Factuality in Multimodal Abstractive Summarization [91.46015013816083]
そこで我々は,CLIPBERTScoreを提案する。ゼロショットにおけるこの2つの指標の単純な組み合わせは、文書要約のための既存の事実度指標よりも高い相関性が得られることを示す。本分析は,CLIPBERTScoreとそのコンポーネントの信頼性と高い相関性を示す。
論文参考訳（メタデータ） (2022-11-04T16:50:40Z)
Towards Better Understanding Attribution Methods [77.1487219861185]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。また,いくつかの属性法の性能を著しく向上する処理後平滑化ステップを提案する。
論文参考訳（メタデータ） (2022-05-20T20:50:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。