論文の概要: Explainable Forensics of Manipulated Segments in Untrimmed Long Videos
- arxiv url: http://arxiv.org/abs/2606.02402v1
- Date: Mon, 01 Jun 2026 15:48:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.406023
- Title: Explainable Forensics of Manipulated Segments in Untrimmed Long Videos
- Title(参考訳): 非トリミング長ビデオにおけるマニピュレーションセグメンツの解説
- Authors: Yue Feng, Jingjing Li, Qijia Lu, Wei Ji, Jingrou Zhang, Fei Shen, Xiao Li, Yizhen Jia, Qiang Chen, Limin Wang, Wentong Li, Jie Qin,
- Abstract要約: 時間的AI生成セグメンテーションの局所化と説明のタスクを定式化する。
多様な操作パターンと豊富なアノテーション信号を備えた12,472の未トリミングビデオからなる大規模ベンチマークであるTASLEを紹介する。
そこで本稿では,MLLMに基づく精密な境界ローカライゼーションと解釈可能な推論のためのリファインメントモジュールと,効率的な長ビデオスキャンのためのバウンダリ感性提案生成モジュールを組み合わせた,粗大な法医学ベースラインであるMSLocを提案する。
- 参考スコア(独自算出の注目度): 50.190474724159465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of AI-driven video generation has transformed content creation, while simultaneously increasing the risk of misinformation through localized manipulations in long-form videos. Existing video forensic methods predominantly operate on short, independent clips, and thus fail to capture realistic scenarios where AI-generated content is sparsely embedded within otherwise authentic footage. To bridge this gap, we formulate the task of Temporal AI-Generated Segment Localization and Explanation, which targets authenticity detection, temporal localization, and interpretable analysis of manipulated segments in untrimmed long videos. We further introduce TASLE, a large-scale benchmark comprising 12,472 untrimmed videos with diverse manipulation patterns and rich annotation signals, including temporal boundaries, authenticity labels, and segment-level rationales. In addition, we propose MSLoc, a coarse-to-fine forensic baseline that combines a boundary-sensitive proposal generation module for efficient long-video scanning with an MLLM-based refinement module for precise boundary localization and interpretable reasoning. Experiments validate the effectiveness of the proposed baseline, highlighting the importance of segment-level explainable forensics for long-form AI-generated video analysis. Our dataset and code are publicly available at https://debby-0527.github.io/TASLE.
- Abstract(参考訳): AI駆動のビデオ生成の急速な進歩は、コンテンツ生成を変革させ、同時に、ロングフォームビデオの局所的な操作による誤情報のリスクを増大させた。
既存のビデオ法医学的手法は、主に短い独立したクリップで運用されるため、AI生成されたコンテンツが本物でない映像の中にわずかに埋め込まれている現実的なシナリオを捉えることができない。
このギャップを埋めるために、時間的AI生成セグメンテーションの局所化と説明のタスクを定式化します。
さらに、時間境界、認証ラベル、セグメントレベルの有理性を含む多様な操作パターンと豊富なアノテーション信号を備えた12,472個の未トリミングビデオからなる大規模なベンチマークであるTASLEを紹介する。
さらに,MLLMに基づく精密な境界ローカライゼーションと解釈可能な推論のためのリファインメントモジュールと,効率的な長ビデオスキャンのための境界感性提案生成モジュールを組み合わせた粗大な法医学ベースラインであるMSLocを提案する。
提案したベースラインの有効性を検証する実験により,長めのAI生成ビデオ解析におけるセグメントレベルの説明可能な法科学の重要性を強調した。
データセットとコードはhttps://debby-0527.github.io/TASLEで公開されています。
関連論文リスト
- ActivityForensics: A Comprehensive Benchmark for Localizing Manipulated Activity in Videos [62.94038307981723]
ビデオ中の操作されたアクティビティをローカライズするための,最初の大規模ベンチマークであるActivityForensicsを紹介する。
6K以上のビデオセグメントが含まれており、ビデオコンテキストにシームレスにブレンドされている。
ActivityForensicsに基づいて、ドメイン内、クロスドメイン、オープンワールド設定をカバーする包括的な評価プロトコルを導入する。
論文 参考訳(メタデータ) (2026-04-04T18:00:05Z) - VideoDetective: Clue Hunting via both Extrinsic Query and Intrinsic Relevance for Long Video Understanding [40.699624658181456]
VideoDetectiveは、長いビデオ質問応答において効果的な手がかり探しのために、クエリ・ツー・セグメンテーションの関連性とセグメンション間の親和性を統合するフレームワークである。
提案手法は,ビデオMME-longで最大7.5%の精度向上を実現し,MLLMの多種多様な性能向上を実現している。
論文 参考訳(メタデータ) (2026-03-23T17:59:51Z) - Tempo-R0: A Video-MLLM for Temporal Video Grounding through Efficient Temporal Sensing Reinforcement Learning [6.9627404612894335]
時間的ビデオグラウンド(TVG)は、言語クエリに基づいて、ビデオから関連する時間的セグメントをピンポイントする必要がある。
本稿では,時間的ビデオグラウンド処理のためのビデオマルチモーダル大言語モデルであるTempo-R0を提案する。
本手法は,元のQVHighlightsテストベンチの約3.5%でSOTAソリューションに対する顕著な優位性を実現する。
論文 参考訳(メタデータ) (2025-07-07T06:51:40Z) - CoT-RVS: Zero-Shot Chain-of-Thought Reasoning Segmentation for Videos [59.391265901911005]
本稿では,MLLMのゼロショット・チェーン・オブ・ソート(CoT)機能を利用して,時間-意味的推論による複雑な問題に対処する新しいフレームワークであるCoT-RVSを提案する。
CoT-RVSは、言語クエリ(セマンティック)にマッチする可能性のある特定のフレーム内の可視オブジェクトを分析し、すべてのフレーム(一時)の中で、懸命に観察できる各オブジェクトに対して対応するオブジェクトを選択する。
当社のフレームワークのトレーニングフリー機能は,テスト時にCoTを使用して,よりよいターゲットが出現し始めると関心の対象を更新するオンラインビデオストリーム処理の拡張も可能にしています。
論文 参考訳(メタデータ) (2025-05-24T07:01:31Z) - Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding [60.88843818016968]
長時間のビデオ理解は時間空間の複雑さと質問応答の難しさによって大きな課題を呈する。
セグメント化されたビデオクリップ上でのエージェント検索戦略を活用するために,Deep Video Discovery (DVD) エージェントを提案する。
当社のDVDエージェントは,LVBenchデータセット上での最先端性能を実現し,74.2%の精度を実現した。
論文 参考訳(メタデータ) (2025-05-23T16:37:36Z) - Agent-based Video Trimming [17.519404251018308]
ビデオトリミング(VT)という新しいタスクを導入する。
VTは、無駄な映像を検出し、貴重なセグメントを選択し、それらをコヒーレントなストーリーで最終ビデオに構成することに焦点を当てている。
AVTは、ユーザスタディにおいてより好ましい評価を受け、YouTube Highlights、TVSum、および我々のデータセットにおいて、より優れたmAPと精度を示した。
論文 参考訳(メタデータ) (2024-12-12T17:59:28Z) - ViLLa: Video Reasoning Segmentation with Large Language Model [48.75470418596875]
ViLLa: 大規模言語モデルを用いたビデオ推論セグメンテーションを提案する。
ViLLaは、複数のコアイノベーションを通じて、これらの課題に対処しています。
長ビデオの効率的な処理を可能にするために、Villaは(3)長ビデオを短いが意味的に密度の高いセグメントに適応的に分割し、冗長性を低下させるキーセグメントサンプリングを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-18T17:59:17Z) - Revisiting Kernel Temporal Segmentation as an Adaptive Tokenizer for
Long-form Video Understanding [57.917616284917756]
実世界のビデオは、しばしば数分間の長さであり、意味的に一貫した長さのセグメントがある。
長いビデオを処理するための一般的なアプローチは、一定時間の長さの一様にサンプリングされたクリップにショートフォームビデオモデルを適用することである。
このアプローチは、固定長のクリップがしばしば冗長または非形式的であるため、長いビデオの基本的な性質を無視する。
論文 参考訳(メタデータ) (2023-09-20T18:13:32Z) - A Hierarchical Multi-Modal Encoder for Moment Localization in Video
Corpus [31.387948069111893]
テキストクエリにセマンティックにマッチする長いビデオにおいて、短いセグメントを識別する方法を示す。
この問題に対処するために、粗いクリップレベルと微調整フレームレベルの両方でビデオをエンコードするHierArchical Multi-Modal EncodeR (HAMMER)を提案する。
我々は、ActivityNet CaptionsとTVRデータセット上のビデオコーパスにおけるモーメントローカライゼーションのモデルを評価するために、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2020-11-18T02:42:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。