論文の概要: DDNet: A Dual-Stream Graph Learning and Disentanglement Framework for Temporal Forgery Localization
- arxiv url: http://arxiv.org/abs/2601.01784v1
- Date: Mon, 05 Jan 2026 04:35:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.763951
- Title: DDNet: A Dual-Stream Graph Learning and Disentanglement Framework for Temporal Forgery Localization
- Title(参考訳): DDNet: テンポラルフォージェリーローカライゼーションのためのデュアルストリームグラフ学習とアンタングルメントフレームワーク
- Authors: Boyang Zhao, Xin Liao, Jiaxin Chen, Xiaoshuai Wu, Yufeng Wu,
- Abstract要約: AIGC技術は、ビデオ内のごく小さなセグメントを改ざんすることで、視聴者を誤解させることを可能にする。
時間的フォージェリーローカライゼーション(TFL)は、改ざんされたセグメントを正確に特定することを目的としている。
時間的フォージェリーローカライゼーション(DDNet)のためのアンダーライン・ストリームグラフ学習とアンダーライン・ディスタングルメント・フレームワークを提案する。
- 参考スコア(独自算出の注目度): 28.183875836729484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid evolution of AIGC technology enables misleading viewers by tampering mere small segments within a video, rendering video-level detection inaccurate and unpersuasive. Consequently, temporal forgery localization (TFL), which aims to precisely pinpoint tampered segments, becomes critical. However, existing methods are often constrained by \emph{local view}, failing to capture global anomalies. To address this, we propose a \underline{d}ual-stream graph learning and \underline{d}isentanglement framework for temporal forgery localization (DDNet). By coordinating a \emph{Temporal Distance Stream} for local artifacts and a \emph{Semantic Content Stream} for long-range connections, DDNet prevents global cues from being drowned out by local smoothness. Furthermore, we introduce Trace Disentanglement and Adaptation (TDA) to isolate generic forgery fingerprints, alongside Cross-Level Feature Embedding (CLFE) to construct a robust feature foundation via deep fusion of hierarchical features. Experiments on ForgeryNet and TVIL benchmarks demonstrate that our method outperforms state-of-the-art approaches by approximately 9\% in AP@0.95, with significant improvements in cross-domain robustness.
- Abstract(参考訳): AIGC技術の急速な進化により、ビデオ内の小さな部分だけを改ざんし、ビデオレベルの検出が不正確で不正確になることによって、視聴者を誤解させることが可能になる。
その結果、改ざんされたセグメントを正確に特定することを目的とした時間的フォージェリーローカライゼーション(TFL)が重要となる。
しかし、既存のメソッドはしばしば \emph{local view} によって制約され、グローバルな異常をキャプチャできない。
そこで本稿では,時間的フォージェリーローカライゼーション(DDNet)のための,リアルタイムグラフ学習フレームワークである \underline{d}ual-stream graph learning と \underline{d}isentanglement framework を提案する。
ローカルアーティファクトに対する \emph{Temporal Distance Stream} と、長距離接続のための \emph{Semantic Content Stream} をコーディネートすることにより、DDNet は、グローバルなキューがローカルな滑らかさによって溺れるのを防ぐ。
さらに,汎用的な偽指紋を分離するためにTDA(Trace Disentanglement and Adaptation)とCLFE(Cross-Level Feature Embedding)を導入し,階層的特徴の深層融合による堅牢な特徴基盤を構築した。
ForgeryNet と TVIL のベンチマーク実験により,我々の手法は AP@0.95 で最先端の手法よりも 9 % 向上し,ドメイン間の堅牢性は大幅に向上した。
関連論文リスト
- UAGLNet: Uncertainty-Aggregated Global-Local Fusion Network with Cooperative CNN-Transformer for Building Extraction [83.48950950780554]
リモートセンシング画像からの抽出は、複雑な構造変化のために難しい課題である。
既存の方法は、セグメンテーションモデルにおけるマルチスケール特徴をキャプチャするために、畳み込みブロックまたは自己アテンションブロックを使用する。
高品質なグローバルローカルなビジュアルセマンティクスを活用するために,不確実性集約型グローバルローカルフュージョンネットワーク(UAGLNet)を提案する。
論文 参考訳(メタデータ) (2025-12-15T02:59:16Z) - Graph Unlearning Meets Influence-aware Negative Preference Optimization [45.33243345077153]
本稿では,textbfInfluenceを意識した textbfNegative textbfPreference textbfOptimization framework である textbfINPO を紹介する。
我々はまず,NPOの発散速度が遅いことを解析し,非学習的な高影響エッジが非学習の影響を低減することを理論的に提案する。
5つの実世界のデータセットで実施された実験は、INPOベースのモデルがすべての品質指標に対して最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-10-22T11:18:00Z) - SpecXNet: A Dual-Domain Convolutional Network for Robust Deepfake Detection [25.04992532067041]
本稿では,堅牢なディープフェイク検出のためのデュアルドメインアーキテクチャであるSpectral Cross-Attentional Network (SpecXNet)を提案する。
修正されたXceptionNetバックボーンの上に構築され、DDFCとDFAモジュールを分離可能な畳み込みブロックに埋め込む。
本研究は,高密度・高密度深度検出における空間スペクトル学習の有効性を明らかにするものである。
論文 参考訳(メタデータ) (2025-09-26T08:51:59Z) - TD3Net: A temporal densely connected multi-dilated convolutional network for lipreading [5.768165707140847]
バックエンドアーキテクチャとして高密度スキップ接続と時間的畳み込みを組み合わせた時間密結合型多次元畳み込みネットワークTD3Netを提案する。
2つの大きな公開データセットであるLRW(Lip Reading in the Wild)とLRW-1000(Lip Reading in the Wild)を用いた単語レベルの読解処理の実験結果から,提案手法が最先端の手法に匹敵する性能を実現することを示す。
論文 参考訳(メタデータ) (2025-06-19T06:55:03Z) - ELGC-Net: Efficient Local-Global Context Aggregation for Remote Sensing Change Detection [65.59969454655996]
本稿では,変化領域を正確に推定するために,リッチな文脈情報を利用する効率的な変化検出フレームワークELGC-Netを提案する。
提案するELGC-Netは、リモートセンシング変更検出ベンチマークにおいて、最先端の性能を新たに設定する。
また,ELGC-Net-LWも導入した。
論文 参考訳(メタデータ) (2024-03-26T17:46:25Z) - FedSpeed: Larger Local Interval, Less Communication Round, and Higher
Generalization Accuracy [84.45004766136663]
フェデレートラーニング(Federated Learning)は、分散機械学習フレームワークである。
これは、局所的不整合最適と局所的過度な適合による頑丈なクライアントドリフトによってもたらされる非消滅バイアスに悩まされる。
本稿では,これらの問題による負の影響を軽減するために,新しい実用的手法であるFedSpeedを提案する。
論文 参考訳(メタデータ) (2023-02-21T03:55:29Z) - Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud
Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。
我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文 参考訳(メタデータ) (2022-12-17T15:05:25Z) - Temporal Transductive Inference for Few-Shot Video Object Segmentation [27.140141181513425]
Few-shot Object segmentation (FS-VOS) は、初期訓練中に見えないクラスのラベル付き例を用いて、ビデオフレームのセグメンテーションを目的としている。
我々のアプローチの鍵は、グローバルな時間的制約とローカルな時間的制約の両方を使用することである。
経験的に、我々のモデルは、YouTube-VIS上の組合間の平均交点を2.8%上回る、最先端のメタラーニングアプローチより優れている。
論文 参考訳(メタデータ) (2022-03-27T14:08:30Z) - SOE-Net: A Self-Attention and Orientation Encoding Network for Point
Cloud based Place Recognition [50.9889997200743]
我々は、自己アテンション・指向性符号化ネットワーク(SOE-Net)を用いて、ポイントクラウドデータから位置認識する問題に取り組む。
SOE-Netは、ポイント間の関係を完全に探求し、長距離コンテキストをポイントワイドなローカル記述子に組み込む。
様々なベンチマークデータセットの実験では、現在の最先端アプローチよりも提案したネットワークの性能が優れていることが示されている。
論文 参考訳(メタデータ) (2020-11-24T22:28:25Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。