Fugu-MT 論文翻訳(概要): Towards multi-modal forgery representation learning for AI-generated video detection and localization

論文の概要: Towards multi-modal forgery representation learning for AI-generated video detection and localization

arxiv url: http://arxiv.org/abs/2605.07232v1
Date: Fri, 08 May 2026 04:35:50 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-11 19:43:38.801039
Title: Towards multi-modal forgery representation learning for AI-generated video detection and localization
Title（参考訳）: マルチモーダルフォージェリー表現学習をめざして
Authors: Dat Le, Khoa Nguyen, Xin Wang, Shu Hu,
Abstract要約: AI生成ビデオは、意味的歪みと誤用のリスクをエスカレートする。既存のAI生成ビデオ検出器の多くは、データモデリングの単一または部分モダリティによって制限されている。本稿では,LMMセマンティックブランチと時間的ビデオ(ST)ビジュアルブランチ,マルチスケール部分スプーフ(PS)オーディオブランチを統合したコアアーキテクチャを提案する。このマルチモーダルアプローチは、部分的に操作されたAI生成ビデオの同時検出と微細な時間的局所化を可能にする。
参考スコア（独自算出の注目度）: 8.396379868583718
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Recent advances in generative AI have democratized video creation at scale. AI-generated videos, including partially manipulated clips across visual and audio channels, pose escalating risks of semantic distortion and misuse, which motivates the need for reliable detection tools. Most existing AI-generated video detectors remain limited by single- or partial-modality of data modeling and the lack of fine-grained temporal forgery localization. To address these challenges, our primary novelty introduces a core architecture that jointly integrates an LMM semantic branch with a spatio-temporal (ST) visual branch and a multi-scale partial-spoof (PS) audio branch. This multi-modal approach enables simultaneous detection and fine-grained temporal localization of partially manipulated AI-generated video forgeries. Extensive experiments show that this approach outperforms existing state-of-the-art methods.
Abstract（参考訳）: 生成AIの最近の進歩は、大規模なビデオ生成を民主化してきた。 AIが生成するビデオは、視覚とオーディオのチャネルで部分的に操作されたクリップを含む、セマンティックな歪みと誤用のリスクを増大させ、信頼性の高い検出ツールの必要性を動機付けている。既存のAI生成ビデオ検出器の多くは、データモデリングの単一あるいは部分的モダリティと、微細な時間的偽造の局所化の欠如によって制限されている。これらの課題に対処するため,我々は,LMMセマンティックブランチと時空間(ST)ビジュアルブランチ,マルチスケール部分スプーフ(PS)オーディオブランチを併用したコアアーキテクチャを導入する。このマルチモーダルアプローチは、部分的に操作されたAI生成ビデオの同時検出と微細な時間的局所化を可能にする。大規模な実験により、このアプローチは既存の最先端手法よりも優れていることが示された。

関連論文リスト

CMTA: Leveraging Cross-Modal Temporal Artifacts for Generalizable AI-Generated Video Detection [45.739302264021795]
ビデオ合成技術は、デジタル認証にとって前例のない挑戦である。クロスモーダル時間的アーティファクト(CMTA)における特異な指紋の同定本稿では、これらのユニークな時間的アーティファクトをキャプチャするクロスモーダル検出手法であるCMTAフレームワークを提案する。
論文参考訳（メタデータ） (2026-05-01T13:04:14Z)
ATSS: Detecting AI-Generated Videos via Anomalous Temporal Self-Similarity [44.13741922118129]
異時性自己相似性(ATSS)と呼ばれるAIGVの特異な指紋を同定する。我々は,この知見を三重相似表現と相互共役融合機構によって活用する多モーダル検出フレームワークATSSを提案する。 ATSSはAP、AUC、ACCの指標で最先端の手法を大幅に上回っている。
論文参考訳（メタデータ） (2026-04-05T09:10:13Z)
Consolidating Diffusion-Generated Video Detection with Unified Multimodal Forgery Learning [61.3737746844896]
既存の手法は主に画像レベルの偽造検出に重点を置いており、一般的なビデオレベルの偽造検出はほとんど探索されていない。本稿では,拡散生成ビデオの検出に特化して設計したMM-Det++という統合マルチモーダル検出手法を提案する。
論文参考訳（メタデータ） (2025-11-22T16:05:12Z)
Complementary and Contrastive Learning for Audio-Visual Segmentation [74.11434759171199]
本稿では,ローカル情報とグローバル情報の両方を処理可能な新しいフレームワークであるComplementary and Contrastive Transformer(CCFormer)を提案する。提案手法は,S4, MS3, AVSSデータセットにまたがる最先端のベンチマークを新たに設定する。
論文参考訳（メタデータ） (2025-10-11T06:36:59Z)
BrokenVideos: A Benchmark Dataset for Fine-Grained Artifact Localization in AI-Generated Videos [63.03271511550633]
BrokenVideosは、3,254のAI生成ビデオのベンチマークデータセットで、微妙に注釈付けされたピクセルレベルのマスクが視覚的腐敗の領域を強調している。実験の結果,BrokenVideosにおける人工物検出モデルの訓練状況とマルチモーダル大言語モデル(MLLM)が,破壊領域のローカライズ能力を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2025-06-25T03:30:04Z)
DAVID-XR1: Detecting AI-Generated Videos with Explainable Reasoning [58.70446237944036]
DAVID-Xは、AI生成ビデオに詳細な欠陥レベル、時間空間アノテーションと有理書を組み合わせた最初のデータセットである。 DAVID-XR1は、視覚的推論の解釈可能な連鎖を提供するために設計されたビデオ言語モデルである。以上の結果から,AI生成ビデオコンテンツの信頼性確認のための説明可能な検出手法が期待できることを示す。
論文参考訳（メタデータ） (2025-06-13T13:39:53Z)
BusterX: MLLM-Powered AI-Generated Video Forgery Detection and Explanation [77.55074597806035]
GenBuster-200Kは、200Kの高解像度ビデオクリップを備えた、大規模で高品質なAI生成ビデオデータセットである。 BusterXは、マルチモーダル大言語モデル(MLLM)と強化学習を活用した、AI生成のビデオ検出および説明フレームワークである。
論文参考訳（メタデータ） (2025-05-19T02:06:43Z)
Exposing AI-generated Videos: A Benchmark Dataset and a Local-and-Global Temporal Defect Based Detection Method [31.763312726582217]
生成モデルは、セキュリティ問題を引き起こす現実的なビデオの作成において、大きな進歩を遂げた。本稿では,先進的な拡散型ビデオ生成アルゴリズムを用いて,様々なセマンティックな内容の映像データセットを構築する。現在のAI生成ビデオの局所的およびグローバル的時間的欠陥を分析して、偽ビデオを公開するための新たな検出フレームワークを構築する。
論文参考訳（メタデータ） (2024-05-07T09:00:09Z)
AI-Generated Video Detection via Spatio-Temporal Anomaly Learning [2.1210527985139227]
ユーザは、偽情報を拡散するために、既存のないビデオを簡単に作成できる。モデルトレーニングと評価のためのベンチマークとして,大規模ビデオデータセット(GVD)を構築した。
論文参考訳（メタデータ） (2024-03-25T11:26:18Z)
AV-Lip-Sync+: Leveraging AV-HuBERT to Exploit Multimodal Inconsistency for Video Deepfake Detection [32.502184301996216]
マルチモーダル操作(オーディオ・ヴィジュアル・ディープフェイクとも呼ばれる)は、一方的なディープフェイク検出器がマルチメディアコンテンツの偽造を検出するのを困難にしている。従来は、一様ビデオ法則を主に採用し、教師付き事前訓練を用いて偽造検出を行った。本研究では,マルチモーダル自己教師付き学習(SSL)機能抽出器に基づく新しい手法を提案する。
論文参考訳（メタデータ） (2023-11-05T18:35:03Z)
Single-Layer Vision Transformers for More Accurate Early Exits with Less Overhead [88.17413955380262]
視覚変換器アーキテクチャに基づく早期退避のための新しいアーキテクチャを提案する。本手法は分類問題と回帰問題の両方に有効であることを示す。また,音声視覚データ解析において,早期出口に音声と視覚のモダリティを統合する新しい手法を提案する。
論文参考訳（メタデータ） (2021-05-19T13:30:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。