論文の概要: RelayFormer: A Unified Local-Global Attention Framework for Scalable Image and Video Manipulation Localization
- arxiv url: http://arxiv.org/abs/2508.09459v1
- Date: Wed, 13 Aug 2025 03:35:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.742502
- Title: RelayFormer: A Unified Local-Global Attention Framework for Scalable Image and Video Manipulation Localization
- Title(参考訳): RelayFormer: スケーラブルな画像とビデオ操作のローカライゼーションのための統一ローカルグローバルアテンションフレームワーク
- Authors: Wen Huang, Jiarui Yang, Tao Dai, Jiawei Li, Shaoxiong Zhan, Bin Wang, Shu-Tao Xia,
- Abstract要約: RelayFormerはビジュアル操作のローカライゼーションのための統一的でモジュール化されたアーキテクチャである。
強力な一般化を伴うスケーラブルで解像度に依存しない処理を可能にする。
我々のフレームワークは、既存のTransformerベースのバックボーンとシームレスに統合します。
- 参考スコア(独自算出の注目度): 51.62786543289288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual manipulation localization (VML) -- across both images and videos -- is a crucial task in digital forensics that involves identifying tampered regions in visual content. However, existing methods often lack cross-modal generalization and struggle to handle high-resolution or long-duration inputs efficiently. We propose RelayFormer, a unified and modular architecture for visual manipulation localization across images and videos. By leveraging flexible local units and a Global-Local Relay Attention (GLoRA) mechanism, it enables scalable, resolution-agnostic processing with strong generalization. Our framework integrates seamlessly with existing Transformer-based backbones, such as ViT and SegFormer, via lightweight adaptation modules that require only minimal architectural changes, ensuring compatibility without disrupting pretrained representations. Furthermore, we design a lightweight, query-based mask decoder that supports one-shot inference across video sequences with linear complexity. Extensive experiments across multiple benchmarks demonstrate that our approach achieves state-of-the-art localization performance, setting a new baseline for scalable and modality-agnostic VML. Code is available at: https://github.com/WenOOI/RelayFormer.
- Abstract(参考訳): 画像とビデオの両方にわたる視覚操作ローカライゼーション(VML)は、視覚コンテンツ中の改ざんされた領域を特定することを含む、デジタル法医学において重要なタスクである。
しかし、既存の手法はクロスモーダルな一般化を欠くことが多く、高分解能または長期の入力を効率的に処理するのに苦労する。
RelayFormerは画像やビデオ間での視覚的操作のローカライゼーションのための,統一的でモジュール化されたアーキテクチャである。
フレキシブルなローカルユニットとGlobal-Local Relay Attention (GLoRA) メカニズムを利用することで、強力な一般化を伴うスケーラブルで解像度に依存しない処理を可能にする。
我々のフレームワークは、最小限のアーキテクチャ変更しか必要とせず、事前訓練された表現を中断することなく互換性を確保する軽量適応モジュールを介して、既存のTransformerベースのバックボーン(ViTやSegFormerなど)とシームレスに統合します。
さらに,線形複雑度を持つビデオシーケンス間のワンショット推論をサポートする軽量なクエリベースのマスクデコーダを設計する。
複数のベンチマークにわたる大規模な実験により、我々の手法は最先端のローカライゼーション性能を達成し、スケーラブルでモダリティに依存しないVMLのための新しいベースラインを設定できることを示した。
コードは、https://github.com/WenOOI/RelayFormer.comで入手できる。
関連論文リスト
- Visual Semantic Description Generation with MLLMs for Image-Text Matching [7.246705430021142]
本稿では,マルチモーダル大言語モデル(MLLM)を視覚的意味論として活用することにより,モダリティギャップを橋渡しする新しいフレームワークを提案する。
提案手法は,(1)視覚特徴とVSDを融合して画像表現の言語表現性を高めることによるインスタンスレベルのアライメント,(2)カテゴリレベルのアライメントを確保するためのVSDクラスタリングによるプロトタイプレベルのアライメントを組み合わせたものである。
論文 参考訳(メタデータ) (2025-07-11T13:38:01Z) - FOCUS: Unified Vision-Language Modeling for Interactive Editing Driven by Referential Segmentation [47.8417810406568]
最近のLVLM(Large Vision Language Models)は、視覚的理解と生成的モデリングを統一する有望な能力を示している。
本稿では,分割認識と制御可能なオブジェクト中心生成をエンドツーエンドフレームワークに統合した統合LVLMであるFOCUSを紹介する。
論文 参考訳(メタデータ) (2025-06-20T07:46:40Z) - LGM-Pose: A Lightweight Global Modeling Network for Real-time Human Pose Estimation [9.000760165185532]
これらの課題に対処するために,シングルブランチ軽量グローバルモデリングネットワーク (LGM-Pose) が提案されている。
このネットワークでは、軽量なMobileViMブロックが、LARM(Lightweight Attentional Representation Module)として提案されている。
論文 参考訳(メタデータ) (2025-06-05T02:29:04Z) - ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。
ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。
我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文 参考訳(メタデータ) (2025-01-31T16:11:04Z) - SOLO: A Single Transformer for Scalable Vision-Language Modeling [74.05173379908703]
我々はvisiOn-Language mOdelingのための単一変換器SOLOを提案する。
SOLOのような統一された単一トランスフォーマーアーキテクチャは、LVLMにおけるこれらのスケーラビリティ上の懸念に効果的に対処する。
本稿では,オープンソースの7B LVLMであるSOLOの開発のための,最初のオープンソーストレーニングレシピを紹介する。
論文 参考訳(メタデータ) (2024-07-08T22:40:15Z) - DGL: Dynamic Global-Local Prompt Tuning for Text-Video Retrieval [73.82017200889906]
テキストビデオ検索は、テキストクエリーに最も関連性の高いビデオを見つけるための重要なマルチモーダルタスクである。
我々は,グローバルローカルなビデオアテンションを考慮したモーダル動的プロンプトチューニング手法であるDGLを提案する。
従来のプロンプトチューニング手法とは対照的に,ローカルレベルのテキストとフレームプロンプトを生成するために,共有潜在空間を用いる。
論文 参考訳(メタデータ) (2024-01-19T09:58:06Z) - Multi-entity Video Transformers for Fine-Grained Video Representation Learning [34.26732761916984]
ビデオ表現学習のためのトランスフォーマーアーキテクチャの設計を再検討する。
このアプローチの重要な側面は、時間パイプラインにおけるシーン情報の共有の改善です。
我々のMV-Former(Multi-entity Video Transformer)は、フレームを時間にわたってリンクされたトークンとして表現されたエンティティのグループとして処理します。
論文 参考訳(メタデータ) (2023-11-17T21:23:12Z) - Visual Concept Reasoning Networks [93.99840807973546]
分割変換マージ戦略は、視覚認識タスクのための畳み込みニューラルネットワークのアーキテクチャ制約として広く使用されている。
我々は、この戦略を利用して、高レベルの視覚概念間の推論を可能にするために、Visual Concept Reasoning Networks (VCRNet) と組み合わせることを提案する。
提案するモデルであるVCRNetは、パラメータ数を1%以下にすることで、一貫して性能を向上する。
論文 参考訳(メタデータ) (2020-08-26T20:02:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。