論文の概要: Fact-R1: Towards Explainable Video Misinformation Detection with Deep Reasoning
- arxiv url: http://arxiv.org/abs/2505.16836v1
- Date: Thu, 22 May 2025 16:05:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.433809
- Title: Fact-R1: Towards Explainable Video Misinformation Detection with Deep Reasoning
- Title(参考訳): Fact-R1:Deep Reasoningによる説明可能なビデオ誤報検出に向けて
- Authors: Fanrui Zhang, Dian Li, Qiang Zhang, Chenjun, sinbadliu, Junxiong Lin, Jiahong Yan, Jiawei Liu, Zheng-Jun Zha,
- Abstract要約: 既存の方法は、しばしば固いテンプレートに過度に適合し、偽りのコンテンツに対する深い推論を欠いている。
FakeVVは10万以上のビデオテキスト対と微粒で解釈可能なアノテーションからなる大規模ベンチマークである。
また、深い推論と協調ルールに基づく強化学習を統合するフレームワークであるFact-R1を提案する。
- 参考スコア(独自算出の注目度): 45.63234523183302
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid spread of multimodal misinformation on social media has raised growing concerns, while research on video misinformation detection remains limited due to the lack of large-scale, diverse datasets. Existing methods often overfit to rigid templates and lack deep reasoning over deceptive content. To address these challenges, we introduce FakeVV, a large-scale benchmark comprising over 100,000 video-text pairs with fine-grained, interpretable annotations. In addition, we further propose Fact-R1, a novel framework that integrates deep reasoning with collaborative rule-based reinforcement learning. Fact-R1 is trained through a three-stage process: (1) misinformation long-Chain-of-Thought (CoT) instruction tuning, (2) preference alignment via Direct Preference Optimization (DPO), and (3) Group Relative Policy Optimization (GRPO) using a novel verifiable reward function. This enables Fact-R1 to exhibit emergent reasoning behaviors comparable to those observed in advanced text-based reinforcement learning systems, but in the more complex multimodal misinformation setting. Our work establishes a new paradigm for misinformation detection, bridging large-scale video understanding, reasoning-guided alignment, and interpretable verification.
- Abstract(参考訳): ソーシャルメディア上でのマルチモーダルな誤報の急速な拡散は、懸念が高まっている一方、ビデオの誤報検出に関する研究は、大規模で多様なデータセットが欠如しているため、依然として限られている。
既存の方法は、しばしば固いテンプレートに過度に適合し、偽りのコンテンツに対する深い推論を欠いている。
これらの課題に対処するため、FakeVVは10万以上のビデオテキスト対と微粒で解釈可能なアノテーションからなる大規模なベンチマークである。
さらに、深い推論と協調ルールに基づく強化学習を統合する新しいフレームワークであるFact-R1を提案する。
Fact-R1は、(1)誤情報長鎖(CoT)命令チューニング、(2)直接選好最適化(DPO)による選好アライメント、(3)新しい検証可能な報酬関数を用いたグループ相対ポリシー最適化(GRPO)という3段階のプロセスで訓練される。
これにより、Fact-R1は高度なテキストベースの強化学習システムに匹敵する創発的な推論行動を示すことができるが、より複雑なマルチモーダル誤情報設定では実現できない。
我々の研究は、誤情報検出、大規模ビデオ理解、推論誘導アライメント、解釈可能な検証のための新しいパラダイムを確立する。
関連論文リスト
- Unlocking the Potential of Difficulty Prior in RL-based Multimodal Reasoning [69.64809103333839]
先行情報に対する問題の難易度を明示的にモデル化し,多モーダル推論における強化学習に基づく微調整の有効性を検証した。
提案手法は,2段階学習データのみを2K+0.6Kとする多モード数学的推論ベンチマークにおいて有意な性能を示す。
論文 参考訳(メタデータ) (2025-05-19T15:43:10Z) - Observe-R1: Unlocking Reasoning Abilities of MLLMs with Dynamic Progressive Reinforcement Learning [3.364797975300393]
マルチモーダル大規模言語モデル(MLLM)の推論能力向上を目的とした新しいフレームワークであるObserve-R1を提案する。
我々は,RL学習におけるデータサンプルの難易度と難易度に応じて整理し,サンプル化したNeuraLadderデータセットを構築した。
Qwen2.5-VL-3B と Qwen2.5-VL-7B のニューララダーデータセットから得られた20kサンプルによる実験により、Observe-R1 は推論と一般的なベンチマークの両方において、より大きな推論モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-18T14:08:03Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - Investigating Video Reasoning Capability of Large Language Models with Tropes in Movies [69.28082193942991]
本稿では、これまで見過ごされていた2つの重要なビデオ推論スキルを探索するためのテストベッドとして設計された、新しいデータセットであるTropes in Movies (TiM)を紹介する。
映画ストーリーテリングのトポロジを利用して、TiMは最先端のLCMベースのアプローチの推論能力を評価する。
これらの欠陥に対処するために、FEVoRI(Face-Enhanced Viper of Role Interactions)とConQueR(Context Query Reduction)を提案する。
論文 参考訳(メタデータ) (2024-06-16T12:58:31Z) - Detecting misinformation through Framing Theory: the Frame Element-based
Model [6.4618518529384765]
私たちは、AIコミュニティの中で探索されていない領域である物語フレームのニュアンスな操作に焦点を当てています。
本稿では,事前学習された大規模言語モデルと深層ニューラルネットワークの力を利用して誤情報を検出する革新的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T21:50:42Z) - Video-Text Representation Learning via Differentiable Weak Temporal
Alignment [11.967313324773668]
教師付き手法でビデオとテキストの汎用的な共同表現を学習するには、大量の手動注釈付きビデオデータセットが必要である。
あいまいさと非順序的なアライメントのため、ビデオとテキストの共同埋め込みを自己指導的に学ぶことは依然として困難である。
本稿では,VT-TWINS (Video-Text Temporally Weak Alignment-based Contrastive Learning) を提案する。
論文 参考訳(メタデータ) (2022-03-31T04:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。