Fugu-MT 論文翻訳(概要): DualFact+: A Multimodal Fact Verification Framework for Procedural Video Understanding

論文の概要: DualFact+: A Multimodal Fact Verification Framework for Procedural Video Understanding

arxiv url: http://arxiv.org/abs/2604.25584v1
Date: Tue, 28 Apr 2026 12:50:18 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-29 16:49:17.861791
Title: DualFact+: A Multimodal Fact Verification Framework for Procedural Video Understanding
Title（参考訳）: DualFact+: 手続き的ビデオ理解のためのマルチモーダルファクト検証フレームワーク
Authors: Cennet Oguz, Yasser Hamidullah, Josef van Genabith, Simon Ostermann,
Abstract要約: 手続き型ビデオキャプションのための2層多モード事実性評価フレームワークであるDualFactを紹介する。我々はDualFactを2つのモードでインスタンス化する。DualFact-Tはテキスト証拠に対して事実を検証し、DualFact-Vはビデオ地上の視覚的証拠に対して事実を検証します。
参考スコア（独自算出の注目度）: 11.615842791105988
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce DualFact, a dual-layer, multimodal factuality evaluation framework for procedural video captioning. DualFact separates factual correctness into conceptual facts, capturing abstract semantic roles (e.g., Action, Ingredient, Tool, Location), and contextual facts, capturing their grounded predicate-argument realizations in video. To support complete and role-consistent evaluation, DualFact incorporates implicit argument augmentation (VIA) and contrastive fact sets. We instantiate DualFact in two modes: DualFact-T, which verifies facts against textual evidence, and DualFact-V, which verifies facts against video-grounded visual evidence. Experiments on YouCook3-Fact and CraftBench-Fact show that state-of-the-art multimodal language models produce fluent but often factually incomplete captions, with systematic omissions and role-level inconsistencies. DualFact correlates more strongly with human factuality judgments than standard metrics, particularly for contextual facts, and reveals that caption-only evaluation overestimates hallucinations compared to video-grounded verification. Overall, DualFact offers an interpretable and human-aligned evaluation protocol that highlights persistent challenges in multimodal factual grounding, extending beyond surface-level fluency.
Abstract（参考訳）: 手続き型ビデオキャプションのための2層多モード事実性評価フレームワークであるDualFactを紹介する。 DualFactは、事実の正しさを概念的な事実に分離し、抽象的な意味的役割(例えば、アクション、イングレディエント、ツール、ロケーション)をキャプチャし、文脈的事実をキャプチャし、ビデオの中で彼らの基礎となる述語論の実現をキャプチャする。完全かつロール一貫性の評価をサポートするために、DualFactは暗黙の議論増強(VIA)と対照的な事実セットを取り入れている。我々はDualFactを2つのモードでインスタンス化する。DualFact-Tはテキスト証拠に対して事実を検証し、DualFact-Vはビデオ地上の視覚的証拠に対して事実を検証します。 YouCook3-Fact と CraftBench-Fact の実験では、最先端のマルチモーダル言語モデルが、体系的な省略とロールレベルの不整合を伴う、流動的だが事実的に不完全なキャプションを生成することが示されている。 DualFactは、標準的な指標、特に文脈的事実よりも人間の事実性判断と強く相関しており、キャプションのみによる評価は、ビデオグラウンドによる検証よりも幻覚を過大評価することを示している。全体として、DualFactは解釈可能で人間に沿った評価プロトコルを提供する。

関連論文リスト

DIVER: Dynamic Iterative Visual Evidence Reasoning for Multimodal Fake News Detection [6.225860651499494]
多モーダル偽ニュース検出は、敵対的誤報の軽減に不可欠である。進化的,エビデンス駆動推論パラダイムに基づくフレームワークであるDIVER(Dynamic Iterative Visual Evidence Reasoning)を提案する。 Weibo、Weibo21、GossipCopの実験では、DIVERは最先端のベースラインを平均2.72%上回っている。
論文参考訳（メタデータ） (2026-01-12T04:01:33Z)
Multimodal Fact Checking with Unified Visual, Textual, and Contextual Representations [2.139909491081949]
我々は"MultiCheck"と呼ばれる微細なマルチモーダル事実検証のための統一的なフレームワークを提案する。我々のアーキテクチャは、テキストと画像のための専用エンコーダと、要素間相互作用を用いた相互関係をキャプチャする融合モジュールを組み合わせる。我々はFactify 2データセットに対する我々のアプローチを評価し、F1の重み付けスコア0.84を達成し、ベースラインを大幅に上回った。
論文参考訳（メタデータ） (2025-08-07T07:36:53Z)
A Survey of Multimodal Hallucination Evaluation and Detection [52.03164192840023]
MLLM(Multi-modal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なパラダイムとして登場した。これらのモデルはしばしば幻覚に悩まされ、もっともらしいように見えるコンテンツを生成するが、入力内容や確立された世界的知識と矛盾する。本調査では,イメージ・トゥ・テキスト(I2T)およびテキスト・トゥ・イメージ(T2I)生成タスクを対象とした幻覚評価ベンチマークと検出方法の詳細なレビューを行う。
論文参考訳（メタデータ） (2025-07-25T07:22:42Z)
FIFA: Unified Faithfulness Evaluation Framework for Text-to-Video and Video-to-Text Generation [30.111545374280194]
VideoMLLMは、ビデオ・トゥ・テキスト・タスクとテキスト・トゥ・ビデオタスクの両方において顕著な進歩を遂げている。彼らはしばしば幻覚に悩まされ、視覚的な入力と矛盾する内容を生み出す。既存の評価方法は1つのタスクに限られており、オープンエンドのフリーフォーム応答における幻覚の評価にも失敗する。包括的記述的事実を抽出する統合FaIthFulness evAluationフレームワークであるFIFAを提案する。また,幻覚的コンテンツを修正したツールベースの修正フレームワークであるPost-Correctionを紹介する。
論文参考訳（メタデータ） (2025-07-09T03:51:27Z)
FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。 FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。 Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文参考訳（メタデータ） (2023-10-18T16:27:49Z)
Give Me More Details: Improving Fact-Checking with Latent Retrieval [58.706972228039604]
証拠は、自動化された事実チェックにおいて重要な役割を果たす。既存のファクトチェックシステムは、エビデンス文が与えられたと仮定するか、検索エンジンが返した検索スニペットを使用する。資料から得られた全文を証拠として組み込んで,2つの豊富なデータセットを導入することを提案する。
論文参考訳（メタデータ） (2023-05-25T15:01:19Z)
Context-faithful Prompting for Large Language Models [51.194410884263135]
大言語モデル(LLM)は世界事実に関するパラメトリック知識を符号化する。パラメトリック知識への依存は、文脈的手がかりを見落とし、文脈に敏感なNLPタスクにおいて誤った予測をもたらす可能性がある。我々は, LLMの文脈的忠実度を, 知識の衝突と, 棄権による予測の2つの側面で評価し, 向上する。
論文参考訳（メタデータ） (2023-03-20T17:54:58Z)
End-to-End Multimodal Fact-Checking and Explanation Generation: A Challenging Dataset and Models [0.0]
エンドツーエンドのファクトチェックと説明生成を提案する。目標は、主張の真理性を評価することであり、関連する証拠を取得し、真理性ラベルを予測することである。この研究を支援するために15,601クレームからなる大規模データセットであるMochegを構築した。
論文参考訳（メタデータ） (2022-05-25T04:36:46Z)
AmbiFC: Fact-Checking Ambiguous Claims with Evidence [57.7091560922174]
実世界の情報ニーズから10kクレームを抽出したファクトチェックデータセットであるAmbiFCを提示する。アンビFCの証拠に対する主張を比較する際に,曖昧さから生じる不一致を分析した。我々は,このあいまいさをソフトラベルで予測するモデルを開発した。
論文参考訳（メタデータ） (2021-04-01T17:40:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。