論文の概要: BusterX++: Towards Unified Cross-Modal AI-Generated Content Detection and Explanation with MLLM
- arxiv url: http://arxiv.org/abs/2507.14632v2
- Date: Thu, 31 Jul 2025 12:03:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 15:10:45.254168
- Title: BusterX++: Towards Unified Cross-Modal AI-Generated Content Detection and Explanation with MLLM
- Title(参考訳): BusterX++: MLLMによる統合型クロスプラットフォームAI生成コンテンツ検出と説明を目指して
- Authors: Haiquan Wen, Tianxiao Li, Zhenglin Huang, Yiwei He, Guangliang Cheng,
- Abstract要約: 合成メディアのクロスモーダル検出と説明のための新しいフレームワークである textbfBusterX++ を紹介する。
本手法は,冷間開始を排除した高度強化学習(RL)ポストトレーニング戦略を取り入れたものである。
textbfGenBuster++は、最先端の画像とビデオ生成技術を利用したクロスモーダルなベンチマークである。
- 参考スコア(独自算出の注目度): 12.349038994581415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in generative AI have dramatically improved image and video synthesis capabilities, significantly increasing the risk of misinformation through sophisticated fake content. In response, detection methods have evolved from traditional approaches to multimodal large language models (MLLMs), offering enhanced transparency and interpretability in identifying synthetic media. However, current detection systems remain fundamentally limited by their single-modality design. These approaches analyze images or videos separately, making them ineffective against synthetic content that combines multiple media formats. To address these challenges, we introduce \textbf{BusterX++}, a novel framework designed specifically for cross-modal detection and explanation of synthetic media. Our approach incorporates an advanced reinforcement learning (RL) post-training strategy that eliminates cold-start. Through Multi-stage Training, Thinking Reward, and Hybrid Reasoning, BusterX++ achieves stable and substantial performance improvements. To enable comprehensive evaluation, we also present \textbf{GenBuster++}, a cross-modal benchmark leveraging state-of-the-art image and video generation techniques. This benchmark comprises 4,000 images and video clips, meticulously curated by human experts using a novel filtering methodology to ensure high quality, diversity, and real-world applicability. Extensive experiments demonstrate the effectiveness and generalizability of our approach.
- Abstract(参考訳): 生成AIの最近の進歩は、画像とビデオの合成能力を劇的に改善し、洗練された偽コンテンツによる誤情報のリスクを著しく高めた。
これに対し、検出手法は従来のマルチモーダル大言語モデル(MLLM)のアプローチから進化し、合成メディアの識別における透明性と解釈性の向上を実現している。
しかし、現在の検出システムは、その単一モダリティ設計によって基本的に制限されている。
これらのアプローチは画像や動画を別々に分析し、複数のメディアフォーマットを組み合わせた合成コンテンツに対して効果がない。
これらの課題に対処するために,合成メディアのクロスモーダル検出と説明に特化して設計された新しいフレームワークである \textbf{BusterX++} を紹介する。
本手法は,冷間開始を排除した高度強化学習(RL)ポストトレーニング戦略を取り入れたものである。
マルチステージトレーニング、Thinking Reward、Hybrid Reasoningを通じて、BusterX++は安定的で実質的なパフォーマンス改善を実現している。
包括的評価を可能にするため,最先端の画像とビデオ生成技術を活用したクロスモーダルベンチマークである \textbf{GenBuster++} も提示した。
このベンチマークは4000枚の画像とビデオクリップで構成されており、人間の専門家によって、高品質、多様性、および実世界の適用性を保証するために、新しいフィルタリング手法を用いて細心の注意を払ってキュレートされている。
大規模な実験は、我々のアプローチの有効性と一般化性を実証する。
関連論文リスト
- UMCL: Unimodal-generated Multimodal Contrastive Learning for Cross-compression-rate Deepfake Detection [37.37926854174864]
ディープフェイク検出では、ソーシャルメディアプラットフォームが使用する様々な圧縮の程度が、モデルの一般化と信頼性に重大な課題をもたらす。
クロスモーダルレート深度検出のための一様生成マルチモーダルコントラスト学習フレームワークを提案する。
提案手法は, 各種圧縮速度および操作タイプにまたがる優れた性能を実現し, 堅牢なディープフェイク検出のための新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2025-11-24T10:56:22Z) - Consolidating Diffusion-Generated Video Detection with Unified Multimodal Forgery Learning [61.3737746844896]
既存の手法は主に画像レベルの偽造検出に重点を置いており、一般的なビデオレベルの偽造検出はほとんど探索されていない。
本稿では,拡散生成ビデオの検出に特化して設計したMM-Det++という統合マルチモーダル検出手法を提案する。
論文 参考訳(メタデータ) (2025-11-22T16:05:12Z) - UniMMVSR: A Unified Multi-Modal Framework for Cascaded Video Super-Resolution [62.10676832966289]
カスケードビデオ超解像は、大規模な基礎モデルを用いて高解像度ビデオを生成するための有望な技術として登場した。
UniMMVSRは,テキスト,画像,ビデオを含むハイブリッドモード条件を組み込んだ最初の統合ビデオ超解像フレームワークである。
実験の結果、UniMMVSRは既存の手法よりも優れており、より細部が良く、マルチモーダル条件への適合度が高いビデオを生成することがわかった。
論文 参考訳(メタデータ) (2025-10-09T12:25:16Z) - Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models [78.32948112203228]
ビデオ理解はコンピュータビジョンにおける最も困難なフロンティアである。
近年,映像理解タスクにおいて,映像多時間モデルが顕著に出現している。
Surveyは、ビデオ-LMM能力を向上するための統一的なフレームワークを研究者や実践者に提供することを目的としている。
論文 参考訳(メタデータ) (2025-10-06T17:10:44Z) - Growing Visual Generative Capacity for Pre-Trained MLLMs [60.826355079902505]
Bridgeは純粋な自己回帰統合MLLMであり、学習済みの視覚的理解モデルを生成能力で強化する。
本稿では,コンパクトなセマンティックトークンと微細なピクセルトークンを統合するセマンティック・ツー・ピクセルの離散表現を提案する。
論文 参考訳(メタデータ) (2025-10-02T00:40:02Z) - Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。
本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。
実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-30T17:59:46Z) - Leveraging Pre-Trained Visual Models for AI-Generated Video Detection [54.88903878778194]
ビデオ生成の分野はDeepFakesを超えて進歩し、ジェネリックコンテンツでAI生成ビデオを検出する方法が緊急に必要になった。
本稿では,事前学習した視覚モデルを用いて,実写映像と実写映像を区別する手法を提案する。
提案手法は, 平均90%以上で高い検出精度を達成し, その有効性を裏付けるものである。
論文 参考訳(メタデータ) (2025-07-17T15:36:39Z) - Image Can Bring Your Memory Back: A Novel Multi-Modal Guided Attack against Image Generation Model Unlearning [28.15997901023315]
Recallは、未学習のIMGの堅牢性を損なうために設計された、新しい敵のフレームワークである。
逆効果、計算効率、意味的忠実性の点で、元のプロンプトで既存のベースラインを一貫して上回ります。
これらの結果は、現在の未学習メカニズムにおける重大な脆弱性を明らかにし、より堅牢なソリューションの必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-07-09T02:59:01Z) - MAGREF: Masked Guidance for Any-Reference Video Generation [33.35245169242822]
MAGREFは、任意の参照ビデオ生成のための統一されたフレームワークである。
本研究では,一つのモデルで様々な対象推定を柔軟に処理できる領域認識型動的マスキング機構を提案する。
我々のモデルは、単目的訓練から複雑な多目的シナリオまで、最先端のビデオ生成品質を提供する。
論文 参考訳(メタデータ) (2025-05-29T17:58:15Z) - FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities [76.46448367752944]
MLLM(Multimodal large language model)は、単一のフレームワーク内で視覚的理解と画像生成を統一する言語である。
ほとんどの既存のMLLMはAutore(AR)アーキテクチャに依存しており、将来の開発に固有の制限を課している。
本稿では,離散フローマッチングに基づく統一マルチモーダルモデルであるFUDOKIを紹介する。
論文 参考訳(メタデータ) (2025-05-26T15:46:53Z) - BusterX: MLLM-Powered AI-Generated Video Forgery Detection and Explanation [77.55074597806035]
GenBuster-200Kは、200Kの高解像度ビデオクリップを備えた、大規模で高品質なAI生成ビデオデータセットである。
BusterXは、マルチモーダル大言語モデル(MLLM)と強化学習を活用した、AI生成のビデオ検出および説明フレームワークである。
論文 参考訳(メタデータ) (2025-05-19T02:06:43Z) - Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation [54.588082888166504]
我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。
Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。
実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-08T17:58:57Z) - Advance Fake Video Detection via Vision Transformers [0.9035379689195373]
Vision Transformer (ViT)ベースの偽画像検出と、このアイデアをビデオに拡張する。
検出性能を高めるために,VT埋め込みを時間とともに効果的に統合するオリジナルの%革新的フレームワークを提案する。
提案手法は,新しい,大規模で多様なビデオデータセットにまたがる,有望な精度,一般化,数ショット学習能力を示す。
論文 参考訳(メタデータ) (2025-04-29T11:51:07Z) - SFLD: Reducing the content bias for AI-generated Image Detection [23.152346805893373]
新たなアプローチであるSFLDでは、高レベルの意味情報と低レベルのテクスチャ情報を統合するためにPatchShuffleが組み込まれている。
現在のベンチマークでは、画像品質の低下、コンテンツ保存の不十分、クラス多様性の制限といった課題に直面している。
そこで本研究では,実画像と合成画像のほぼ同一のペアを視覚的に構築するベンチマーク生成手法であるTwin Synthsを紹介する。
論文 参考訳(メタデータ) (2025-02-24T12:38:34Z) - Methods and Trends in Detecting AI-Generated Images: A Comprehensive Review [0.17188280334580194]
GAN(Generative Adversarial Networks)、拡散モデル(Diffusion Models)、変分オートエンコーダ(VAEs)は、高品質なマルチメディアデータの合成を可能にしている。
これらの進歩は、敵の攻撃、非倫理的使用、社会的な危害に関する重大な懸念を引き起こした。
このサーベイは、先進的な生成AIモデルによって生成された合成画像の検出と分類のための最先端技術に関する包括的なレビューを提供する。
論文 参考訳(メタデータ) (2025-02-21T03:16:18Z) - Weak Supervision Dynamic KL-Weighted Diffusion Models Guided by Large Language Models [0.0]
本稿では,大言語モデルと拡散モデルを組み合わせることで,テキスト・画像生成を改善する新しい手法を提案する。
提案手法は, 学習済みLLMから意味的理解を取り入れ, 生成過程の導出を行う。
本手法は,テキスト記述による画像の視覚的品質とアライメントを大幅に改善する。
論文 参考訳(メタデータ) (2025-02-02T15:43:13Z) - MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を効率的に回避するために、連続的に評価された画像トークンを取り入れている。
また,数値安定性問題に対処する理論的に実証された手法と,タスク目標の生成と理解のバランスをとるトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - CapST: Leveraging Capsule Networks and Temporal Attention for Accurate Model Attribution in Deep-fake Videos [9.209808258321559]
特定の生成モデルやエンコーダにディープフェイクを加えることは、法医学的な分析に不可欠であり、ソースと調整された対策を可能にする。
本研究では、異なるモデル(DFDM)からのディープフェイクとGANGen-Detectionの2つのデータセットを用いたディープフェイクビデオのモデル属性問題について検討する。
本稿では,Truncated VGG19ネットワークを統合した新しいCapsule-Spatial-Cap(CapST)モデルを提案する。
論文 参考訳(メタデータ) (2023-11-07T08:05:09Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。