論文の概要: PRPO: Paragraph-level Policy Optimization for Vision-Language Deepfake Detection
- arxiv url: http://arxiv.org/abs/2509.26272v2
- Date: Wed, 01 Oct 2025 12:27:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 14:33:21.847588
- Title: PRPO: Paragraph-level Policy Optimization for Vision-Language Deepfake Detection
- Title(参考訳): PRPO:ビジョンランゲージディープフェイク検出のためのパラグラフレベルのポリシー最適化
- Authors: Tuan Nguyen, Naseem Khan, Khang Tran, NhatHai Phan, Issa Khalil,
- Abstract要約: 本稿では,ディープフェイク検出のための推論注釈付きデータセットを導入し,ディープフェイク検出のための強化学習アルゴリズムを提案する。
実験の結果、PRPOは検出精度を広いマージンで改善し、推論スコアが4.55/5.0であることがわかった。
これらの結果は、より信頼性が高く、解釈可能なディープフェイク検出を可能にするために、視覚的エビデンスにおけるマルチモーダル推論の基盤となることの重要性を強調している。
- 参考スコア(独自算出の注目度): 7.944678181646657
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid rise of synthetic media has made deepfake detection a critical challenge for online safety and trust. Progress remains constrained by the scarcity of large, high-quality datasets. Although multimodal large language models (LLMs) exhibit strong reasoning capabilities, their performance on deepfake detection is poor, often producing explanations that are misaligned with visual evidence or hallucinatory. To address this limitation, we introduce a reasoning-annotated dataset for deepfake detection and propose Paragraph-level Relative Policy Optimization (PRPO), a reinforcement learning algorithm that aligns LLM reasoning with image content at the paragraph level. Experiments show that PRPO improves detection accuracy by a wide margin and achieves the highest reasoning score of 4.55/5.0. Ablation studies further demonstrate that PRPO significantly outperforms GRPO under test-time conditions. These results underscore the importance of grounding multimodal reasoning in visual evidence to enable more reliable and interpretable deepfake detection.
- Abstract(参考訳): 合成メディアの急速な普及により、ディープフェイク検出はオンラインの安全と信頼にとって重要な課題となっている。
大規模で高品質なデータセットの不足により、進歩は依然として制限されている。
マルチモーダルな大言語モデル(LLM)は強い推論能力を示すが、深度検出におけるそれらの性能は乏しく、しばしば視覚的証拠や幻覚と不一致な説明を生み出す。
この制限に対処するために、深度検出のための推論アノテートデータセットを導入し、段落レベルでのLLM推論と画像内容とを整合させる強化学習アルゴリズムであるパラグラフレベル相対ポリシー最適化(PRPO)を提案する。
実験の結果、PRPOは検出精度を広いマージンで改善し、推論スコアが4.55/5.0であることがわかった。
アブレーション研究により、PRPOは試験時間条件下でGRPOを著しく上回ることが示された。
これらの結果は、より信頼性が高く解釈可能なディープフェイク検出を可能にするために、視覚的証拠にマルチモーダル推論を基礎にすることの重要性を強調している。
関連論文リスト
- Perception-Consistency Multimodal Large Language Models Reasoning via Caption-Regularized Policy Optimization [72.30168853571216]
マルチモーダルな言語モデルは、視覚知覚と象徴的推論を統合するタスクに優れています。
CapPO は,(1) 原画像上の条件付き応答とキャプション上の条件付き応答のばらつきを最小限に抑えるキャプションベース整合性正規化,(2) KL 重み付き優位性推定スキームを適応的に拡張して知覚整合性トラジェクトリを強化するキャプションベース整合性正規化という2つの重要なメカニズムを統合した。
論文 参考訳(メタデータ) (2025-09-26T04:32:26Z) - ThinkFake: Reasoning in Multimodal Large Language Models for AI-Generated Image Detection [51.93101033997245]
AI生成画像のリアリズムの増大は、誤情報やプライバシー侵害に対する深刻な懸念を引き起こしている。
我々は、AI生成画像検出のための新しい推論に基づく一般化可能なフレームワークThinkFakeを提案する。
我々は、ThinkFakeがGenImageベンチマークで最先端の手法より優れており、挑戦的なLOKIベンチマークで強力なゼロショットの一般化を示すことを示す。
論文 参考訳(メタデータ) (2025-09-24T07:34:09Z) - Diversity Boosts AI-Generated Text Detection [51.56484100374058]
DivEyeは、予備的な機能を使って、予測不可能がテキスト間でどのように変動するかをキャプチャする、新しいフレームワークである。
提案手法は、既存のゼロショット検出器を最大33.2%向上させ、微調整ベースラインとの競合性能を達成する。
論文 参考訳(メタデータ) (2025-09-23T10:21:22Z) - Large Language Models for Multilingual Vulnerability Detection: How Far Are We? [13.269680075539135]
多言語脆弱性検出のための事前学習言語モデル(PLM)と大規模言語モデル(LLM)の有効性を評価する。
7つの言語にまたがる3万以上の現実世界の脆弱性修正パッチを使用して、機能レベルとラインレベルの両方でモデルパフォーマンスを評価します。
GPT-4oはインストラクションチューニングと数発のプロンプトによって強化され、他の評価モデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-06-09T07:27:49Z) - AuthGuard: Generalizable Deepfake Detection via Language Guidance [39.18916434250689]
既存のディープフェイク検出技術は、進化し続ける新しい、目に見えない偽造手法に追いつくのに苦労している。
言語指導を取り入れることで、ディープフェイク検出の一般化を改善することができる。
我々は、識別的分類と画像テキストのコントラスト学習を組み合わせることで、専門的なディープフェイク視覚エンコーダを訓練する。
論文 参考訳(メタデータ) (2025-06-04T22:50:07Z) - Reliably Bounding False Positives: A Zero-Shot Machine-Generated Text Detection Framework via Multiscaled Conformal Prediction [18.76704882926895]
既存の検出手法の多くは、高い偽陽性率(FPR)による社会的リスクを無視して、検出精度を過度に重視している。
本稿では,FPRの上界を効果的に制約する Conformal Prediction (CP) を利用してこの問題に対処する。
このトレードオフを克服するために,マルチスケールコンフォーマル予測(MCP)を用いたゼロショットマシン生成テキスト検出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-08T09:32:38Z) - Hallucination Detection in LLMs with Topological Divergence on Attention Graphs [64.74977204942199]
幻覚(Halucination)、すなわち、事実的に誤ったコンテンツを生成することは、大きな言語モデルにとって重要な課題である。
本稿では,TOHA (Topology-based HAllucination detector) をRAG設定に導入する。
論文 参考訳(メタデータ) (2025-04-14T10:06:27Z) - Conditioned Prompt-Optimization for Continual Deepfake Detection [11.634681724245933]
本稿では,Pmpt2Guardについて紹介する。
我々は,読み出し専用プロンプトを用いた予測アンサンブル手法を活用し,複数のフォワードパスの必要性を軽減した。
提案手法は,ディープフェイク検出に適したテキスト・プロンプト・コンディショニングを利用する。
論文 参考訳(メタデータ) (2024-07-31T12:22:57Z) - On the Robustness of Language Guidance for Low-Level Vision Tasks: Findings from Depth Estimation [71.72465617754553]
対象中心の3次元空間関係を伝達する低レベルな文を生成し,これらを追加言語として組み込んで,深度推定における下流の影響を評価する。
我々の重要な発見は、現在の言語誘導深度推定器がシーンレベルの記述のみを最適に実行することである。
追加データを活用するにもかかわらず、これらの手法は敵の直接攻撃や分散シフトの増加に伴う性能低下に対して堅牢ではない。
論文 参考訳(メタデータ) (2024-04-12T15:35:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。