論文の概要: BusterX++: Towards Unified Cross-Modal AI-Generated Content Detection and Explanation with MLLM
- arxiv url: http://arxiv.org/abs/2507.14632v2
- Date: Thu, 31 Jul 2025 12:03:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 15:10:45.254168
- Title: BusterX++: Towards Unified Cross-Modal AI-Generated Content Detection and Explanation with MLLM
- Title(参考訳): BusterX++: MLLMによる統合型クロスプラットフォームAI生成コンテンツ検出と説明を目指して
- Authors: Haiquan Wen, Tianxiao Li, Zhenglin Huang, Yiwei He, Guangliang Cheng,
- Abstract要約: 合成メディアのクロスモーダル検出と説明のための新しいフレームワークである textbfBusterX++ を紹介する。
本手法は,冷間開始を排除した高度強化学習(RL)ポストトレーニング戦略を取り入れたものである。
textbfGenBuster++は、最先端の画像とビデオ生成技術を利用したクロスモーダルなベンチマークである。
- 参考スコア(独自算出の注目度): 12.349038994581415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in generative AI have dramatically improved image and video synthesis capabilities, significantly increasing the risk of misinformation through sophisticated fake content. In response, detection methods have evolved from traditional approaches to multimodal large language models (MLLMs), offering enhanced transparency and interpretability in identifying synthetic media. However, current detection systems remain fundamentally limited by their single-modality design. These approaches analyze images or videos separately, making them ineffective against synthetic content that combines multiple media formats. To address these challenges, we introduce \textbf{BusterX++}, a novel framework designed specifically for cross-modal detection and explanation of synthetic media. Our approach incorporates an advanced reinforcement learning (RL) post-training strategy that eliminates cold-start. Through Multi-stage Training, Thinking Reward, and Hybrid Reasoning, BusterX++ achieves stable and substantial performance improvements. To enable comprehensive evaluation, we also present \textbf{GenBuster++}, a cross-modal benchmark leveraging state-of-the-art image and video generation techniques. This benchmark comprises 4,000 images and video clips, meticulously curated by human experts using a novel filtering methodology to ensure high quality, diversity, and real-world applicability. Extensive experiments demonstrate the effectiveness and generalizability of our approach.
- Abstract(参考訳): 生成AIの最近の進歩は、画像とビデオの合成能力を劇的に改善し、洗練された偽コンテンツによる誤情報のリスクを著しく高めた。
これに対し、検出手法は従来のマルチモーダル大言語モデル(MLLM)のアプローチから進化し、合成メディアの識別における透明性と解釈性の向上を実現している。
しかし、現在の検出システムは、その単一モダリティ設計によって基本的に制限されている。
これらのアプローチは画像や動画を別々に分析し、複数のメディアフォーマットを組み合わせた合成コンテンツに対して効果がない。
これらの課題に対処するために,合成メディアのクロスモーダル検出と説明に特化して設計された新しいフレームワークである \textbf{BusterX++} を紹介する。
本手法は,冷間開始を排除した高度強化学習(RL)ポストトレーニング戦略を取り入れたものである。
マルチステージトレーニング、Thinking Reward、Hybrid Reasoningを通じて、BusterX++は安定的で実質的なパフォーマンス改善を実現している。
包括的評価を可能にするため,最先端の画像とビデオ生成技術を活用したクロスモーダルベンチマークである \textbf{GenBuster++} も提示した。
このベンチマークは4000枚の画像とビデオクリップで構成されており、人間の専門家によって、高品質、多様性、および実世界の適用性を保証するために、新しいフィルタリング手法を用いて細心の注意を払ってキュレートされている。
大規模な実験は、我々のアプローチの有効性と一般化性を実証する。
関連論文リスト
- Image Can Bring Your Memory Back: A Novel Multi-Modal Guided Attack against Image Generation Model Unlearning [28.15997901023315]
Recallは、未学習のIMGの堅牢性を損なうために設計された、新しい敵のフレームワークである。
逆効果、計算効率、意味的忠実性の点で、元のプロンプトで既存のベースラインを一貫して上回ります。
これらの結果は、現在の未学習メカニズムにおける重大な脆弱性を明らかにし、より堅牢なソリューションの必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-07-09T02:59:01Z) - MAGREF: Masked Guidance for Any-Reference Video Generation [33.35245169242822]
MAGREFは、任意の参照ビデオ生成のための統一されたフレームワークである。
本研究では,一つのモデルで様々な対象推定を柔軟に処理できる領域認識型動的マスキング機構を提案する。
我々のモデルは、単目的訓練から複雑な多目的シナリオまで、最先端のビデオ生成品質を提供する。
論文 参考訳(メタデータ) (2025-05-29T17:58:15Z) - Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation [54.588082888166504]
我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。
Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。
実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-08T17:58:57Z) - SFLD: Reducing the content bias for AI-generated Image Detection [23.152346805893373]
新たなアプローチであるSFLDでは、高レベルの意味情報と低レベルのテクスチャ情報を統合するためにPatchShuffleが組み込まれている。
現在のベンチマークでは、画像品質の低下、コンテンツ保存の不十分、クラス多様性の制限といった課題に直面している。
そこで本研究では,実画像と合成画像のほぼ同一のペアを視覚的に構築するベンチマーク生成手法であるTwin Synthsを紹介する。
論文 参考訳(メタデータ) (2025-02-24T12:38:34Z) - Weak Supervision Dynamic KL-Weighted Diffusion Models Guided by Large Language Models [0.0]
本稿では,大言語モデルと拡散モデルを組み合わせることで,テキスト・画像生成を改善する新しい手法を提案する。
提案手法は, 学習済みLLMから意味的理解を取り入れ, 生成過程の導出を行う。
本手法は,テキスト記述による画像の視覚的品質とアライメントを大幅に改善する。
論文 参考訳(メタデータ) (2025-02-02T15:43:13Z) - MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を効率的に回避するために、連続的に評価された画像トークンを取り入れている。
また,数値安定性問題に対処する理論的に実証された手法と,タスク目標の生成と理解のバランスをとるトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - CapST: Leveraging Capsule Networks and Temporal Attention for Accurate Model Attribution in Deep-fake Videos [9.209808258321559]
特定の生成モデルやエンコーダにディープフェイクを加えることは、法医学的な分析に不可欠であり、ソースと調整された対策を可能にする。
本研究では、異なるモデル(DFDM)からのディープフェイクとGANGen-Detectionの2つのデータセットを用いたディープフェイクビデオのモデル属性問題について検討する。
本稿では,Truncated VGG19ネットワークを統合した新しいCapsule-Spatial-Cap(CapST)モデルを提案する。
論文 参考訳(メタデータ) (2023-11-07T08:05:09Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。