Fugu-MT 論文翻訳(概要): BusterX++: Towards Unified Cross-Modal AI-Generated Content Detection and Explanation with MLLM

論文の概要: BusterX++: Towards Unified Cross-Modal AI-Generated Content Detection and Explanation with MLLM

arxiv url: http://arxiv.org/abs/2507.14632v2
Date: Thu, 31 Jul 2025 12:03:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-01 15:10:45.254168
Title: BusterX++: Towards Unified Cross-Modal AI-Generated Content Detection and Explanation with MLLM
Title（参考訳）: BusterX++: MLLMによる統合型クロスプラットフォームAI生成コンテンツ検出と説明を目指して
Authors: Haiquan Wen, Tianxiao Li, Zhenglin Huang, Yiwei He, Guangliang Cheng,
Abstract要約: 合成メディアのクロスモーダル検出と説明のための新しいフレームワークである textbfBusterX++ を紹介する。本手法は,冷間開始を排除した高度強化学習(RL)ポストトレーニング戦略を取り入れたものである。 textbfGenBuster++は、最先端の画像とビデオ生成技術を利用したクロスモーダルなベンチマークである。
参考スコア（独自算出の注目度）: 12.349038994581415
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in generative AI have dramatically improved image and video synthesis capabilities, significantly increasing the risk of misinformation through sophisticated fake content. In response, detection methods have evolved from traditional approaches to multimodal large language models (MLLMs), offering enhanced transparency and interpretability in identifying synthetic media. However, current detection systems remain fundamentally limited by their single-modality design. These approaches analyze images or videos separately, making them ineffective against synthetic content that combines multiple media formats. To address these challenges, we introduce \textbf{BusterX++}, a novel framework designed specifically for cross-modal detection and explanation of synthetic media. Our approach incorporates an advanced reinforcement learning (RL) post-training strategy that eliminates cold-start. Through Multi-stage Training, Thinking Reward, and Hybrid Reasoning, BusterX++ achieves stable and substantial performance improvements. To enable comprehensive evaluation, we also present \textbf{GenBuster++}, a cross-modal benchmark leveraging state-of-the-art image and video generation techniques. This benchmark comprises 4,000 images and video clips, meticulously curated by human experts using a novel filtering methodology to ensure high quality, diversity, and real-world applicability. Extensive experiments demonstrate the effectiveness and generalizability of our approach.
Abstract（参考訳）: 生成AIの最近の進歩は、画像とビデオの合成能力を劇的に改善し、洗練された偽コンテンツによる誤情報のリスクを著しく高めた。これに対し、検出手法は従来のマルチモーダル大言語モデル(MLLM)のアプローチから進化し、合成メディアの識別における透明性と解釈性の向上を実現している。しかし、現在の検出システムは、その単一モダリティ設計によって基本的に制限されている。これらのアプローチは画像や動画を別々に分析し、複数のメディアフォーマットを組み合わせた合成コンテンツに対して効果がない。これらの課題に対処するために,合成メディアのクロスモーダル検出と説明に特化して設計された新しいフレームワークである \textbf{BusterX++} を紹介する。本手法は,冷間開始を排除した高度強化学習(RL)ポストトレーニング戦略を取り入れたものである。マルチステージトレーニング、Thinking Reward、Hybrid Reasoningを通じて、BusterX++は安定的で実質的なパフォーマンス改善を実現している。包括的評価を可能にするため,最先端の画像とビデオ生成技術を活用したクロスモーダルベンチマークである \textbf{GenBuster++} も提示した。このベンチマークは4000枚の画像とビデオクリップで構成されており、人間の専門家によって、高品質、多様性、および実世界の適用性を保証するために、新しいフィルタリング手法を用いて細心の注意を払ってキュレートされている。大規模な実験は、我々のアプローチの有効性と一般化性を実証する。

関連論文リスト

Leveraging Pre-Trained Visual Models for AI-Generated Video Detection [54.88903878778194]
ビデオ生成の分野はDeepFakesを超えて進歩し、ジェネリックコンテンツでAI生成ビデオを検出する方法が緊急に必要になった。本稿では,事前学習した視覚モデルを用いて,実写映像と実写映像を区別する手法を提案する。提案手法は, 平均90%以上で高い検出精度を達成し, その有効性を裏付けるものである。
論文参考訳（メタデータ） (2025-07-17T15:36:39Z)
Image Can Bring Your Memory Back: A Novel Multi-Modal Guided Attack against Image Generation Model Unlearning [28.15997901023315]
Recallは、未学習のIMGの堅牢性を損なうために設計された、新しい敵のフレームワークである。逆効果、計算効率、意味的忠実性の点で、元のプロンプトで既存のベースラインを一貫して上回ります。これらの結果は、現在の未学習メカニズムにおける重大な脆弱性を明らかにし、より堅牢なソリューションの必要性を浮き彫りにしている。
論文参考訳（メタデータ） (2025-07-09T02:59:01Z)
MAGREF: Masked Guidance for Any-Reference Video Generation [33.35245169242822]
MAGREFは、任意の参照ビデオ生成のための統一されたフレームワークである。本研究では,一つのモデルで様々な対象推定を柔軟に処理できる領域認識型動的マスキング機構を提案する。我々のモデルは、単目的訓練から複雑な多目的シナリオまで、最先端のビデオ生成品質を提供する。
論文参考訳（メタデータ） (2025-05-29T17:58:15Z)
FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities [76.46448367752944]
MLLM(Multimodal large language model)は、単一のフレームワーク内で視覚的理解と画像生成を統一する言語である。ほとんどの既存のMLLMはAutore(AR)アーキテクチャに依存しており、将来の開発に固有の制限を課している。本稿では,離散フローマッチングに基づく統一マルチモーダルモデルであるFUDOKIを紹介する。
論文参考訳（メタデータ） (2025-05-26T15:46:53Z)
Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation [54.588082888166504]
我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。 Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
論文参考訳（メタデータ） (2025-05-08T17:58:57Z)
Advance Fake Video Detection via Vision Transformers [0.9035379689195373]
Vision Transformer (ViT)ベースの偽画像検出と、このアイデアをビデオに拡張する。検出性能を高めるために,VT埋め込みを時間とともに効果的に統合するオリジナルの%革新的フレームワークを提案する。提案手法は,新しい,大規模で多様なビデオデータセットにまたがる,有望な精度,一般化,数ショット学習能力を示す。
論文参考訳（メタデータ） (2025-04-29T11:51:07Z)
SFLD: Reducing the content bias for AI-generated Image Detection [23.152346805893373]
新たなアプローチであるSFLDでは、高レベルの意味情報と低レベルのテクスチャ情報を統合するためにPatchShuffleが組み込まれている。現在のベンチマークでは、画像品質の低下、コンテンツ保存の不十分、クラス多様性の制限といった課題に直面している。そこで本研究では,実画像と合成画像のほぼ同一のペアを視覚的に構築するベンチマーク生成手法であるTwin Synthsを紹介する。
論文参考訳（メタデータ） (2025-02-24T12:38:34Z)
Weak Supervision Dynamic KL-Weighted Diffusion Models Guided by Large Language Models [0.0]
本稿では,大言語モデルと拡散モデルを組み合わせることで,テキスト・画像生成を改善する新しい手法を提案する。提案手法は, 学習済みLLMから意味的理解を取り入れ, 生成過程の導出を行う。本手法は,テキスト記述による画像の視覚的品質とアライメントを大幅に改善する。
論文参考訳（メタデータ） (2025-02-02T15:43:13Z)
MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。離散化の手法とは異なり、MMARは情報損失を効率的に回避するために、連続的に評価された画像トークンを取り入れている。また,数値安定性問題に対処する理論的に実証された手法と,タスク目標の生成と理解のバランスをとるトレーニング戦略を提案する。
論文参考訳（メタデータ） (2024-10-14T17:57:18Z)
CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文参考訳（メタデータ） (2024-02-08T18:27:22Z)
Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文参考訳（メタデータ） (2023-12-11T18:54:52Z)
CapST: Leveraging Capsule Networks and Temporal Attention for Accurate Model Attribution in Deep-fake Videos [9.209808258321559]
特定の生成モデルやエンコーダにディープフェイクを加えることは、法医学的な分析に不可欠であり、ソースと調整された対策を可能にする。本研究では、異なるモデル(DFDM)からのディープフェイクとGANGen-Detectionの2つのデータセットを用いたディープフェイクビデオのモデル属性問題について検討する。本稿では,Truncated VGG19ネットワークを統合した新しいCapsule-Spatial-Cap(CapST)モデルを提案する。
論文参考訳（メタデータ） (2023-11-07T08:05:09Z)
Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-07-31T10:22:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。