論文の概要: Word-Anchored Temporal Forgery Localization
- arxiv url: http://arxiv.org/abs/2603.06220v1
- Date: Fri, 06 Mar 2026 12:33:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.697133
- Title: Word-Anchored Temporal Forgery Localization
- Title(参考訳): Word-Anchored Temporal Forgery Localization
- Authors: Tianyi Wang, Xi Shao, Harry Cheng, Yinglong Wang, Mohan Kankanhalli,
- Abstract要約: 候補偽造提案を導出するために,単語アンコール時間的偽造位置推定(WAFL)を提案する。
まず、時間的偽造の本質を分析し、最小の有意義な偽造単位、単語トークンを識別し、データ前処理を音声の自然な言語境界と整合させる。
偽造検出に固有の極端なクラス不均衡を克服するために,アーティファクト中心非対称損失(ACA)を設計する。
- 参考スコア(独自算出の注目度): 6.691985085293349
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current temporal forgery localization (TFL) approaches typically rely on temporal boundary regression or continuous frame-level anomaly detection paradigms to derive candidate forgery proposals. However, they suffer not only from feature granularity misalignment but also from costly computation. To address these issues, we propose word-anchored temporal forgery localization (WAFL), a novel paradigm that shifts the TFL task from temporal regression and continuous localization to discrete word-level binary classification. Specifically, we first analyze the essence of temporal forgeries and identify the minimum meaningful forgery units, word tokens, and then align data preprocessing with the natural linguistic boundaries of speech. To adapt powerful pre-trained foundation backbones for feature extraction, we introduce the forensic feature realignment (FFR) module, mapping representations from the pre-trained semantic space to a discriminative forensic manifold. This allows subsequent lightweight linear classifiers to efficiently perform binary classification and accomplish the TFL task. Furthermore, to overcome the extreme class imbalance inherent to forgery detection, we design the artifact-centric asymmetric (ACA) loss, which breaks the standard precision-recall trade-off by dynamically suppressing overwhelming authentic gradients while asymmetrically prioritizing subtle forensic artifacts. Extensive experiments demonstrate that WAFL significantly outperforms state-of-the-art approaches in localization performance under both in- and cross-dataset settings, while requiring substantially fewer learnable parameters and operating at high computational efficiency.
- Abstract(参考訳): 現在の時間的フォージェリーローカライゼーション(TFL)アプローチは、一般的に、候補のフォージェリー提案を導出するために時間的境界回帰または連続的なフレームレベルの異常検出パラダイムに依存している。
しかし、それらは特徴的粒度の不一致だけでなく、コストのかかる計算にも悩まされる。
これらの課題に対処するために,TFLタスクを時間的回帰と連続的局所化から離散的な単語レベルのバイナリ分類にシフトさせる新しいパラダイムである,単語アンカレッド時間的フォージェリローカライゼーション(WAFL)を提案する。
具体的には、まず時間的偽造の本質を分析し、最小の有意義な偽造単位、単語トークンを識別し、データ前処理を音声の自然な言語境界と整合させる。
特徴抽出のための強力な事前学習基盤のバックボーンに適応するために,事前学習された意味空間から識別可能な法定多様体への写像表現である法定特徴再構成(FFR)モジュールを導入する。
これにより、後続の軽量線形分類器はバイナリ分類を効率的に実行し、TFLタスクを達成できる。
さらに, 偽造検出に固有の極端なクラス不均衡を克服するために, 微妙な法医学的アーティファクトを非対称に優先順位付けしながら, 圧倒的な正真性勾配を動的に抑制することにより, 標準精度のリコールトレードオフを断ち切るアーティファクト中心非対称(ACA)損失を設計する。
広汎な実験により、WAFLは、学習可能なパラメータをかなり少なくし、高い計算効率で動作しながら、内部および横断的な設定下でのローカライズ性能において、最先端のアプローチを著しく上回ることを示した。
関連論文リスト
- GEM-TFL: Bridging Weak and Full Supervision for Forgery Localization through EM-Guided Decomposition and Temporal Refinement [24.929199892659636]
Temporal Forgery Localizationは、ビデオやオーディオストリーム内で操作されたセグメントを正確に識別することを目的としており、マルチメディアの法医学とセキュリティの解釈可能な証拠を提供する。
しかし、Wakly Supervised TFL (WS-TFL) は、バイナリビデオレベルラベルからのみ学習することでラベリングコストを削減する。
GEM-TFLは,学習と推論の監督のギャップを効果的に埋める2段階の分類回帰フレームワークである。
論文 参考訳(メタデータ) (2026-03-05T12:07:26Z) - Towards Infinite Length Extrapolation: A Unified Approach [0.0]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、長いシーケンスを処理する能力は、訓練中のコンテキストウィンドウサイズによって根本的に制限されている。
我々は、注目スコアを乗法変換と加法バイアスに分解するものとして、位置符号化手法を再解釈する統一的なフレームワークを使用する。
我々の理論的解析は、無限コンテキスト外挿条件を確立し、ソフトマックスハンドリングが、長距離相関、エントロピー境界性、勾配位置感度を保ちながら、非有界列に対して適切に定義されていることを保証している。
論文 参考訳(メタデータ) (2026-01-03T14:10:23Z) - Accelerate Speculative Decoding with Sparse Computation in Verification [49.74839681322316]
投機的復号化は、複数のドラフトトークンを並列に検証することにより、自動回帰言語モデル推論を加速する。
既存のスペーシフィケーション方式は主にトークン・バイ・トーケンの自己回帰復号化のために設計されている。
そこで本研究では,注目度,FFN,MoEを両立させるスパース検証フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-26T07:53:41Z) - Frame-level Temporal Difference Learning for Partial Deepfake Speech Detection [16.923285534924116]
不自然な時間変動を識別する部分的な深度検出を再定義する時間差注意モジュール(TDAM)を提案する。
二重レベルの階層的差分表現は、微細なスケールと粗いスケールの両方で時間的不規則性を捕捉する一方、適応的な平均プーリングは、情報損失を最小限に抑えるために、可変長入力における必須パターンを保存する。
当社のTDAM-AvgPoolモデルは,PartialSpoofデータセットで0.59%,HADデータセットで0.03%,最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-07-20T19:46:23Z) - BayesTTA: Continual-Temporal Test-Time Adaptation for Vision-Language Models via Gaussian Discriminant Analysis [41.09181390655176]
CLIPのような視覚言語モデル(VLM)は、強いゼロショット認識を実現するが、実世界のシナリオに共通する時空間的な分散シフトの下で大幅に劣化する。
テスト分布が時間とともに徐々に変化するCT-TTA(textitContinal-Temporal Test-Time Adaptation)として、この実践的問題を定式化する。
我々は、時間的に一貫した予測を実行し、視覚表現を動的に調整する、ベイズ適応フレームワークであるtextitBayesTTAを提案する。
論文 参考訳(メタデータ) (2025-07-11T14:02:54Z) - Context-aware TFL: A Universal Context-aware Contrastive Learning Framework for Temporal Forgery Localization [60.73623588349311]
本研究では,時間的フォージェリーローカライゼーションのための共通文脈対応コントラスト学習フレームワーク (UniCaCLF) を提案する。
提案手法は教師付きコントラスト学習を利用して,異常検出による偽造瞬間の検出と同定を行う。
実物と偽物との間における特徴の識別可能性の限界をさらに押し上げるために、効率的な文脈対応コントラスト符号化を導入する。
論文 参考訳(メタデータ) (2025-06-10T06:40:43Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Orthogonal Subspace Decomposition for Generalizable AI-Generated Image Detection [58.87142367781417]
航法的に訓練された検出器は、限定的で単調な偽のパターンに過度に適合する傾向にあり、特徴空間は高度に制約され、低ランクになる。
潜在的な治療法の1つは、ビジョンファウンデーションモデルに事前訓練された知識を取り入れて、機能領域を広げることである。
主要なコンポーネントを凍結し、残ったコンポーネントのみを適用することで、フェイクパターンを学習しながら、トレーニング済みの知識を保存します。
論文 参考訳(メタデータ) (2024-11-23T19:10:32Z) - Coarse-to-Fine Proposal Refinement Framework for Audio Temporal Forgery Detection and Localization [60.899082019130766]
本稿では、フレームレベル検出ネットワーク(FDN)と、音声の時間的偽造検出とローカライゼーションのための改良ネットワーク(PRN)を提案する。
FDNは、偽のフレーム間で情報的不整合の手がかりを抽出し、偽の領域を大まかに示すのに有用な識別的特徴を得る。
PRNは、FDNから派生した粗粒度の提案を洗練するために、信頼スコアと回帰オフセットを予測する責任がある。
論文 参考訳(メタデータ) (2024-07-23T15:07:52Z) - Semi-Supervised Temporal Action Detection with Proposal-Free Masking [134.26292288193298]
PropOsal-free Temporal mask (SPOT) に基づく新しい半教師付き時間行動検出モデルを提案する。
SPOTは最先端の代替品よりも優れている。
論文 参考訳(メタデータ) (2022-07-14T16:58:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。