Fugu-MT 論文翻訳(概要): GEM-TFL: Bridging Weak and Full Supervision for Forgery Localization through EM-Guided Decomposition and Temporal Refinement

論文の概要: GEM-TFL: Bridging Weak and Full Supervision for Forgery Localization through EM-Guided Decomposition and Temporal Refinement

arxiv url: http://arxiv.org/abs/2603.05095v1
Date: Thu, 05 Mar 2026 12:07:26 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-06 22:06:11.216923
Title: GEM-TFL: Bridging Weak and Full Supervision for Forgery Localization through EM-Guided Decomposition and Temporal Refinement
Title（参考訳）: GEM-TFL: EM-Guided Decomposition and Temporal Refinementによる鍛造局所化のためのブリッジとフルスーパービジョン
Authors: Xiaodong Zhu, Yuanming Zheng, Suting Wang, Junqi Yang, Yuhong Yang, Weiping Tu, Zhongyuan Wang,
Abstract要約: Temporal Forgery Localizationは、ビデオやオーディオストリーム内で操作されたセグメントを正確に識別することを目的としており、マルチメディアの法医学とセキュリティの解釈可能な証拠を提供する。しかし、Wakly Supervised TFL (WS-TFL) は、バイナリビデオレベルラベルからのみ学習することでラベリングコストを削減する。 GEM-TFLは,学習と推論の監督のギャップを効果的に埋める2段階の分類回帰フレームワークである。
参考スコア（独自算出の注目度）: 24.929199892659636
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Temporal Forgery Localization (TFL) aims to precisely identify manipulated segments within videos or audio streams, providing interpretable evidence for multimedia forensics and security. While most existing TFL methods rely on dense frame-level labels in a fully supervised manner, Weakly Supervised TFL (WS-TFL) reduces labeling cost by learning only from binary video-level labels. However, current WS-TFL approaches suffer from mismatched training and inference objectives, limited supervision from binary labels, gradient blockage caused by non-differentiable top-k aggregation, and the absence of explicit modeling of inter-proposal relationships. To address these issues, we propose GEM-TFL (Graph-based EM-powered Temporal Forgery Localization), a two-phase classification-regression framework that effectively bridges the supervision gap between training and inference. Built upon this foundation, (1) we enhance weak supervision by reformulating binary labels into multi-dimensional latent attributes through an EM-based optimization process; (2) we introduce a training-free temporal consistency refinement that realigns frame-level predictions for smoother temporal dynamics; and (3) we design a graph-based proposal refinement module that models temporal-semantic relationships among proposals for globally consistent confidence estimation. Extensive experiments on benchmark datasets demonstrate that GEM-TFL achieves more accurate and robust temporal forgery localization, substantially narrowing the gap with fully supervised methods.
Abstract（参考訳）: TFL(Temporal Forgery Localization)は、ビデオやオーディオストリーム内の操作されたセグメントを正確に識別することを目的としており、マルチメディアの法医学とセキュリティの解釈可能な証拠を提供する。既存のTFL手法の多くは、完全に教師付きされたフレームレベルラベルに依存しているが、Wakly Supervised TFL (WS-TFL) はバイナリビデオレベルラベルからのみ学習することでラベリングコストを削減する。しかし、現在のWS-TFLアプローチは、ミスマッチしたトレーニングと推論の目的、バイナリラベルからの限定的な監督、差別化不可能なトップk集約による勾配のブロック、およびプロトゾス間関係の明示的なモデリングの欠如に悩まされている。これらの課題に対処するため,GEM-TFL (Graph-based EM-powered Temporal Forgery Localization) を提案する。この基礎の上に構築された,(1)二項ラベルをEMに基づく最適化プロセスにより多次元潜在属性に再構成することにより,弱い監督を強化する,(2)スムーズな時間的ダイナミクスのためのフレームレベルの予測を実現するトレーニング不要な時間的整合性改善を導入する,(3)一様一貫した信頼度推定のための提案間の時間的関係をモデル化するグラフベースの提案改善モジュールを設計する。ベンチマークデータセットに対する大規模な実験により、GEM-TFLはより正確で堅牢な時間的偽造の局所化を実現し、完全に教師された手法でギャップを著しく狭めることが示されている。

関連論文リスト

CrystaL: Spontaneous Emergence of Visual Latents in MLLMs [55.34169914483764]
CrystaL(Crystallized Latent Reasoning)は,静止画像と劣化画像を処理するための2つの経路を持つ単一ステージフレームワークである。 CrystaLは2つの経路にまたがる注意パターンと予測分布を明確に調整することで、潜在表現をタスク関連視覚意味論に結晶化する。知覚集約ベンチマークの実験では、CrystaLは最先端のベースラインを一貫して上回っている。
論文参考訳（メタデータ） (2026-02-24T15:01:30Z)
Agentic Spatio-Temporal Grounding via Collaborative Reasoning [80.83158605034465]
時間的ビデオグラウンド(Temporal Video Grounding)は、テキストクエリが与えられたビデオ内の対象物または人の時間的チューブを検索することを目的としている。本稿では,STVGの課題に対して,オープンワールドおよびトレーニングフリーシナリオに向けたエージェント時空間グラウンド(ASTG)フレームワークを提案する。具体的には、現代多言語モデル(MLLM)を活用した2つの特殊エージェントSRA(Spatial Reasoning Agent)とTRA(Temporal Reasoning Agent)である。人気のあるベンチマークの実験は、既存の弱教師付きおよびゼロショットアプローチをマージンで上回る提案手法の優位性を実証している。
論文参考訳（メタデータ） (2026-02-10T10:16:27Z)
Fine-tuning Pre-trained Vision-Language Models in a Human-Annotation-Free Manner [46.140724013144194]
CLIPのような大規模視覚言語モデル(VLM)は、ゼロショットの強い一般化を示すが、下流のタスクに適応するためには通常、コストのかかるラベル付きデータを必要とする。既存の教師なしの自己学習手法は擬似ラベル化に依存しているが、信頼できない信頼度フィルタリング、確認バイアス、低信頼サンプルの未利用に悩まされることが多い。我々は,デュアルモデル,クロスモーダル協調機構を通じてラベルのないデータを活用する,教師なし適応フレームワークであるCollaborative Fine-Tuning (CoFT)を提案する。
論文参考訳（メタデータ） (2026-02-04T09:00:12Z)
DART: Dual Adaptive Refinement Transfer for Open-Vocabulary Multi-Label Recognition [59.203152078315235]
Open-Vocabulary Multi-Label Recognition (OV-MLR)は、画像内の複数の見えないオブジェクトカテゴリを識別することを目的としている。ビジョンランゲージ事前学習モデルは強力なオープン語彙基盤を提供するが、弱い監督下では微粒な局所化に苦慮する。本稿では,これらの制約を克服するためのDART(Dual Adaptive Refinement Transfer)フレームワークを提案する。
論文参考訳（メタデータ） (2025-08-07T17:22:33Z)
Beyond Fully Supervised Pixel Annotations: Scribble-Driven Weakly-Supervised Framework for Image Manipulation Localization [11.10178274806454]
アノテーションの効率と検出性能を向上させる弱監督方式を提案する。我々は、スクリブルラベルでメインストリームのMLデータセットを再注釈し、最初のスクリブルベースのMLデータセットを提案する。モデルが一貫した予測を生成することを奨励するために,構造的整合性を損なう自己教師型トレーニングを採用する。
論文参考訳（メタデータ） (2025-07-17T11:45:27Z)
Commuting Distance Regularization for Timescale-Dependent Label Inconsistency in EEG Emotion Recognition [1.4499463058550683]
脳波に基づく人間の感情認識のためのニューラルネットワークモデルのトレーニングにおいて、TsDLI(Timescale Dependent Label Inconsistency)がしばしば見過ごされる問題に対処する。局所変動損失(LVL)と局所グローバル一貫性損失(LGCL)の2つの新しい正規化戦略を提案する。その結果,提案手法は最先端のベースラインよりも優れていることがわかった。
論文参考訳（メタデータ） (2025-07-15T01:22:14Z)
Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。大規模な実験ではPPADの大幅な改善が示されている。
論文参考訳（メタデータ） (2025-05-26T14:42:35Z)
Exploiting Low-confidence Pseudo-labels for Source-free Object Detection [54.98300313452037]
Source-free Object Detection (SFOD) は、ラベル付きソースデータにアクセスすることなく、未ラベルのターゲットドメインにソーストレーニングされた検出器を適応することを目的としている。現在のSFOD法は適応相におけるしきい値に基づく擬似ラベル手法を用いる。疑似ラベルを最大限に活用するために,高信頼度と低信頼度しきい値を導入する手法を提案する。
論文参考訳（メタデータ） (2023-10-19T12:59:55Z)
Learning Prompt-Enhanced Context Features for Weakly-Supervised Video Anomaly Detection [37.99031842449251]
弱い監督下での映像異常検出は重大な課題を呈する。本稿では,効率的なコンテキストモデリングとセマンティック識別性の向上に焦点をあてた,弱教師付き異常検出フレームワークを提案する。提案手法は,特定の異常なサブクラスの検出精度を大幅に向上させ,その実用的価値と有効性を裏付けるものである。
論文参考訳（メタデータ） (2023-06-26T06:45:16Z)
Unsupervised Visible-Infrared Person ReID by Collaborative Learning with Neighbor-Guided Label Refinement [53.044703127757295]
教師なし学習可視赤外人物再識別 (USL-VI-ReID) は、ラベルなしのクロスモダリティデータセットからモダリティ不変の特徴を学習することを目的としている。本稿では,生成したラベルを1つのモダリティからそれに対応するモダリティに同時に割り当てる,Dual Optimal Transport Label Assignment (DOTLA) フレームワークを提案する。提案したDOTLA機構は、相互強化と相互モダリティデータアソシエーションの効率的な解を定式化することにより、不十分でノイズの多いラベルアソシエーションの副作用を効果的に低減することができる。
論文参考訳（メタデータ） (2023-05-22T04:40:30Z)
Temporal Transductive Inference for Few-Shot Video Object Segmentation [27.140141181513425]
Few-shot Object segmentation (FS-VOS) は、初期訓練中に見えないクラスのラベル付き例を用いて、ビデオフレームのセグメンテーションを目的としている。我々のアプローチの鍵は、グローバルな時間的制約とローカルな時間的制約の両方を使用することである。経験的に、我々のモデルは、YouTube-VIS上の組合間の平均交点を2.8%上回る、最先端のメタラーニングアプローチより優れている。
論文参考訳（メタデータ） (2022-03-27T14:08:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。