論文の概要: Image Diffusion Models Exhibit Emergent Temporal Propagation in Videos
- arxiv url: http://arxiv.org/abs/2511.19936v1
- Date: Tue, 25 Nov 2025 05:21:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.285547
- Title: Image Diffusion Models Exhibit Emergent Temporal Propagation in Videos
- Title(参考訳): 画像拡散モデルによる映像の創発的時間伝播の抑制
- Authors: Youngseo Kim, Dohyun Kim, Geohee Han, Paul Hongsuck Seo,
- Abstract要約: DRIFTは、SAM誘導マスクリファインメントを用いた事前学習画像拡散モデルを利用したビデオにおける物体追跡のためのフレームワークである。
実験時間最適化戦略-DDIMインバージョン、テキストインバージョン、適応頭部重み付け適応拡散機能の有効性を、頑健で一貫したラベル伝搬のために示す。
これらの知見に基づいて,SAM誘導マスクによる画像拡散モデルを利用したビデオにおける物体追跡のためのフレームワークであるDRIFTを紹介する。
- 参考スコア(独自算出の注目度): 13.824335238443334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image diffusion models, though originally developed for image generation, implicitly capture rich semantic structures that enable various recognition and localization tasks beyond synthesis. In this work, we investigate their self-attention maps can be reinterpreted as semantic label propagation kernels, providing robust pixel-level correspondences between relevant image regions. Extending this mechanism across frames yields a temporal propagation kernel that enables zero-shot object tracking via segmentation in videos. We further demonstrate the effectiveness of test-time optimization strategies-DDIM inversion, textual inversion, and adaptive head weighting-in adapting diffusion features for robust and consistent label propagation. Building on these findings, we introduce DRIFT, a framework for object tracking in videos leveraging a pretrained image diffusion model with SAM-guided mask refinement, achieving state-of-the-art zero-shot performance on standard video object segmentation benchmarks.
- Abstract(参考訳): 画像拡散モデルは、もともと画像生成のために開発されたが、暗黙的に、様々な認識および局所化タスクを可能にするリッチなセマンティック構造を捉えている。
本研究では,それらの自己アテンションマップを意味ラベル伝搬カーネルとして再解釈し,画像領域間の画素レベルの堅牢な対応性を提供する。
この機構をフレーム全体に拡張することで、ビデオのセグメンテーションによるゼロショットオブジェクト追跡を可能にする時間的伝搬カーネルが得られる。
さらに、ロバストかつ一貫したラベル伝搬のための試験時間最適化戦略-DDIMインバージョン、テキストインバージョン、適応ヘッド重み付け適応拡散機能の有効性を実証する。
DRIFTは、SAM誘導マスクの改良による事前学習画像拡散モデルを利用して、標準的なビデオオブジェクトセグメンテーションベンチマークで最先端のゼロショット性能を実現する、ビデオにおけるオブジェクト追跡のためのフレームワークである。
関連論文リスト
- Seg4Diff: Unveiling Open-Vocabulary Segmentation in Text-to-Image Diffusion Transformers [56.76198904599581]
テキストと画像の拡散モデルは、言語翻訳において優れているため、モーダル間の注意機構を通じて暗黙的に概念を基礎づける。
近年のマルチモーダル拡散トランスフォーマーでは, 共用画像とテキストトークンを導入し, よりリッチでスケーラブルなクロスモーダルアライメントを実現している。
MM-DiTの注意構造を分析するための体系的フレームワークであるSeg4Diffを導入し,テキストから画像への意味情報の伝達方法に着目した。
論文 参考訳(メタデータ) (2025-09-22T17:59:54Z) - Domain Adaptive SAR Wake Detection: Leveraging Similarity Filtering and Memory Guidance [5.026771815351906]
そこで本稿では,非教師付きドメイン適応型船舶起動検出のためのSimisity-Guided and Memory-Guided Domain Adap-tation (Termed SimMemDA) フレームワークを提案する。
まず、WakeGANを用いて光学画像のスタイル転送を行い、SARスタイルに近い擬似画像を生成する。
次に、インスタンスレベルの特徴類似度フィルタリング機構を設計し、ソースサンプルをターゲットライクなディストリビューションで識別し、優先順位付けする。
論文 参考訳(メタデータ) (2025-09-14T08:35:39Z) - Motion-Aware Concept Alignment for Consistent Video Editing [57.08108545219043]
MoCA-Video (Motion-Aware Concept Alignment in Video) は、画像ドメインのセマンティックミキシングとビデオのギャップを埋めるトレーニング不要のフレームワークである。
生成されたビデオとユーザが提供した参照画像が与えられた後、MoCA-Videoは参照画像のセマンティックな特徴をビデオ内の特定のオブジェクトに注入する。
我々は、標準SSIM、画像レベルLPIPS、時間LPIPSを用いてMoCAの性能を評価し、新しいメトリクスCASS(Conceptual Alignment Shift Score)を導入し、ソースプロンプトと修正ビデオフレーム間の視覚的シフトの一貫性と有効性を評価する。
論文 参考訳(メタデータ) (2025-06-01T13:28:04Z) - EIDT-V: Exploiting Intersections in Diffusion Trajectories for Model-Agnostic, Zero-Shot, Training-Free Text-to-Video Generation [26.888320234592978]
ゼロショット、トレーニングなし、画像ベースのテキスト・ツー・ビデオ生成は、既存の画像ベースの拡散モデルを用いてビデオを生成することを目的とした新興分野である。
拡散軌道の交叉を用いて,潜在値のみを扱うモデルに依存しない手法を提案する。
文脈内で訓練されたLLMはコヒーレントなフレームワイドプロンプトを生成するために使用され、もう1つはフレーム間の差異を特定するために使用される。
提案手法は,多様な画像生成モデルを扱う場合,より柔軟でありながら,最先端の性能が向上する。
論文 参考訳(メタデータ) (2025-04-09T13:11:09Z) - DINTR: Tracking via Diffusion-based Interpolation [12.130669304428565]
本研究は,トラッキングタスクを定式化するための拡散に基づく新しい手法を提案する。
我々のInterpolation TrackeR(DINTR)は、将来性のある新しいパラダイムを示し、5つの指標表現にまたがる7つのベンチマークにおいて優れた乗法を実現する。
論文 参考訳(メタデータ) (2024-10-14T00:41:58Z) - Zero-Shot Video Semantic Segmentation based on Pre-Trained Diffusion Models [96.97910688908956]
本稿では,事前学習した拡散モデルに基づくビデオセマンティック(VSS)の最初のゼロショット手法を提案する。
予め訓練された画像とビデオ拡散モデルに基づくVSSに適したフレームワークを提案する。
実験により,提案手法は既存のゼロショット画像セマンティックセグメンテーション手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-05-27T08:39:38Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。