論文の概要: Interpretable Motion-Attentive Maps: Spatio-Temporally Localizing Concepts in Video Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2603.02919v2
- Date: Mon, 09 Mar 2026 11:13:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:12.297884
- Title: Interpretable Motion-Attentive Maps: Spatio-Temporally Localizing Concepts in Video Diffusion Transformers
- Title(参考訳): 解釈可能な動き検出型マップ:ビデオ拡散変換器における空間的局所化の概念
- Authors: Youngjun Jun, Seil Kang, Woojung Han, Seong Jae Hwang,
- Abstract要約: 動画拡散変換器(DiT)は、動きを含むテキスト記述から高い忠実度で高品質な映像を合成している。
本稿では,ある運動概念に対して,対象物がいつ,いつ動くかを規定する具体的な運動特徴について検討する。
動作を空間的かつ時間的に局所化する解釈可能な動き検出マップ(IMAP)を得るための動き特徴選択アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 12.481704446483176
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Video Diffusion Transformers (DiTs) have been synthesizing high-quality video with high fidelity from given text descriptions involving motion. However, understanding how Video DiTs convert motion words into video remains insufficient. Furthermore, while prior studies on interpretable saliency maps primarily target objects, motion-related behavior in Video DiTs remains largely unexplored. In this paper, we investigate concrete motion features that specify when and which object moves for a given motion concept. First, to spatially localize, we introduce GramCol, which adaptively produces per-frame saliency maps for any text concept, including both motion and non-motion. Second, we propose a motion-feature selection algorithm to obtain an Interpretable Motion-Attentive Map (IMAP) that localizes motion spatially and temporally. Our method discovers concept saliency maps without the need for any gradient calculation or parameter update. Experimentally, our method shows outstanding localization capability on the motion localization task and zero-shot video semantic segmentation, providing interpretable and clearer saliency maps for both motion and non-motion concepts.
- Abstract(参考訳): 動画拡散変換器(DiT)は、動きを含むテキスト記述から高い忠実度で高品質な映像を合成している。
しかし、ビデオDiTの動作語をビデオに変換する方法の理解は依然として不十分である。
さらに、解釈可能なサリエンシマップの先行研究は、主に対象物を対象としていたが、ビデオDiTにおける動きに関連した挙動は、ほとんど解明されていない。
本稿では,ある運動概念に対して,対象物がいつ,いつ移動するかを規定する具体的な運動特徴について検討する。
まず、空間的ローカライズのためにGramColを導入し、動きと非動きの両方を含む任意のテキスト概念に対してフレームごとのサリエンシマップを適応的に生成する。
第2に,空間的かつ時間的に動きを局所化する解釈可能な動き認識マップ(IMAP)を得るための動き特徴選択アルゴリズムを提案する。
そこで本手法では,勾配計算やパラメータ更新を必要とせずに,概念の正当性マップを探索する。
実験により,動作位置決定タスクとゼロショットビデオセマンティックセマンティックセグメンテーションに優れた局所化能力を示し,動作概念と非動作概念の両方に対して,解釈可能で明瞭なサリエンシマップを提供する。
関連論文リスト
- MotionAdapter: Video Motion Transfer via Content-Aware Attention Customization [73.07309070257162]
MotionAdapterは、ロバストでセマンティックに整合したモーション転送を可能にする、コンテンツ対応のモーション転送フレームワークである。
我々の重要な洞察は、効果的な動き伝達は外見から運動を明示的に切り離す必要があることである。
MotionAdapterは自然に複雑なモーション転送とズームのようなモーション編集タスクをサポートする。
論文 参考訳(メタデータ) (2026-01-05T10:01:27Z) - Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance [107.25252623824296]
Wan-Moveは、ビデオ生成モデルにモーションコントロールを提供するフレームワークである。
私たちの中核となる考え方は、動画を誘導するためのモーションアウェアを元の状態にすることです。
Wan-Moveは5秒、480pの動画を制作し、Kling 1.5の商用モーションブラシに対抗している。
論文 参考訳(メタデータ) (2025-12-09T16:13:55Z) - DisMo: Disentangled Motion Representations for Open-World Motion Transfer [21.557843791867906]
DisMoは、生のビデオデータから直接抽象的な動きを表現するための新しいパラダイムである。
私たちの表現は、外見、オブジェクトのアイデンティティ、ポーズといった静的情報とは独立しています。
学習した表現は下流の動作理解タスクに適していることを示す。
論文 参考訳(メタデータ) (2025-11-28T18:25:54Z) - SynMotion: Semantic-Visual Adaptation for Motion Customized Video Generation [56.90807453045657]
SynMotion(シンモクション)は、セマンティックガイダンスと視覚適応を併用した動画生成モデルである。
意味レベルでは、主観と動きの表現をアンタングルする二項意味理解機構を導入する。
視覚レベルでは、効率的なモーションアダプタをトレーニング済みのビデオ生成モデルに統合し、動きの忠実度と時間的コヒーレンスを高める。
論文 参考訳(メタデータ) (2025-06-30T10:09:32Z) - MotionPro: A Precise Motion Controller for Image-to-Video Generation [108.63100943070592]
我々は、画像間(I2V)生成のための正確なモーションコントローラであるMotionProを提案する。
局所軌道と運動マスクは、微細な運動合成を制御するために用いられる。
WebVid-10MとMC-Benchで行った実験は、MotionProの有効性を実証している。
論文 参考訳(メタデータ) (2025-05-26T17:59:03Z) - Segment Any Motion in Videos [80.72424676419755]
本研究では,長距離軌道運動キューとDINOに基づく意味的特徴を組み合わせた移動物体セグメンテーションを提案する。
本モデルでは,動作を優先し,セマンティックサポートを統合しつつ,時空間軌道注意と動き・セマンティック・デカップリング・エンベディングを用いた。
論文 参考訳(メタデータ) (2025-03-28T09:34:11Z) - MotionMatcher: Motion Customization of Text-to-Video Diffusion Models via Motion Feature Matching [27.28898943916193]
テキスト・ツー・ビデオ(T2V)拡散モデルは、入力されたテキスト・プロンプトからリアルな動画を合成する有望な能力を持つ。
本研究では,モーションガイダンスとして参照映像が提供される動作カスタマイズ問題に取り組む。
我々は,事前学習したT2V拡散モデルを特徴レベルで微調整するモーションカスタマイズフレームワークであるMotionMatcherを提案する。
論文 参考訳(メタデータ) (2025-02-18T19:12:51Z) - Reenact Anything: Semantic Video Motion Transfer Using Motion-Textual Inversion [9.134743677331517]
本研究では、動きから外見を遠ざけるために、事前訓練された画像間映像モデルを提案する。
動作テキストインバージョン(Motion-textual Inversion)と呼ばれるこの手法は、画像から映像へのモデルが、主に(相対的な)画像入力から外観を抽出する、という観察を生かしている。
フレームごとの複数のテキスト/画像埋め込みトークンを含むインフレーションされたモーションテキスト埋め込みを操作することにより、高時間運動粒度を実現する。
動作参照ビデオと対象画像の空間的アライメントを必要とせず,様々な領域にまたがって一般化し,フルボディや顔再現といった様々なタスクに適用することができる。
論文 参考訳(メタデータ) (2024-08-01T10:55:20Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - Self-supervised Motion Learning from Static Images [36.85209332144106]
Motion from Static Images (MoSI) はモーション情報をエンコードすることを学ぶ。
MoSIは、下流のデータセットを微調整することなく、大きな動きを持つ領域を発見することができる。
下流のデータセットを微調整することなく、MoSIが大きな動きを持つ領域を発見できることを実証します。
論文 参考訳(メタデータ) (2021-04-01T03:55:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。