Fugu-MT 論文翻訳(概要): Video Diffusion Models are Training-free Motion Interpreter and Controller

論文の概要: Video Diffusion Models are Training-free Motion Interpreter and Controller

arxiv url: http://arxiv.org/abs/2405.14864v1
Date: Thu, 23 May 2024 17:59:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-24 13:17:34.783448
Title: Video Diffusion Models are Training-free Motion Interpreter and Controller
Title（参考訳）: 動画拡散モデル : 学習不要なモーションインタプリタとコントローラ
Authors: Zeqi Xiao, Yifan Zhou, Shuai Yang, Xingang Pan,
Abstract要約: 本稿では,映像拡散モデルにおける動き認識機能を理解し,ローカライズし,操作するための新しい視点を提案する。コンテンツ相関情報とフィルタリング動作チャネルを除去し,MOFT(Motion FeaTure)を提案する。
参考スコア（独自算出の注目度）: 20.361790608772157
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Video generation primarily aims to model authentic and customized motion across frames, making understanding and controlling the motion a crucial topic. Most diffusion-based studies on video motion focus on motion customization with training-based paradigms, which, however, demands substantial training resources and necessitates retraining for diverse models. Crucially, these approaches do not explore how video diffusion models encode cross-frame motion information in their features, lacking interpretability and transparency in their effectiveness. To answer this question, this paper introduces a novel perspective to understand, localize, and manipulate motion-aware features in video diffusion models. Through analysis using Principal Component Analysis (PCA), our work discloses that robust motion-aware feature already exists in video diffusion models. We present a new MOtion FeaTure (MOFT) by eliminating content correlation information and filtering motion channels. MOFT provides a distinct set of benefits, including the ability to encode comprehensive motion information with clear interpretability, extraction without the need for training, and generalizability across diverse architectures. Leveraging MOFT, we propose a novel training-free video motion control framework. Our method demonstrates competitive performance in generating natural and faithful motion, providing architecture-agnostic insights and applicability in a variety of downstream tasks.
Abstract（参考訳）: ビデオ生成は主に、フレーム間での真正かつカスタマイズされた動きをモデル化することを目的としており、動きの理解と制御が重要なトピックとなっている。ビデオモーションの拡散に基づくほとんどの研究は、トレーニングベースのパラダイムによる動きのカスタマイズに焦点を当てている。重要なことは、これらの手法は、ビデオ拡散モデルが、それらの特徴においてクロスフレーム運動情報をエンコードする方法を探求せず、その効果の解釈性と透明性が欠如している。そこで本研究では,映像拡散モデルにおける動作認識機能を理解し,局所化し,操作するための新しい視点を提案する。主成分分析(PCA)を用いて解析した結果,映像拡散モデルにはロバストな動き認識機能があることが判明した。コンテンツ相関情報とフィルタリング動作チャネルを除去し,MOFT(Motion FeaTure)を提案する。 MOFTは、明確な解釈可能性を持つ包括的な動作情報をエンコードする機能、トレーニングを必要とせずに抽出する機能、多様なアーキテクチャをまたいだ一般化性など、さまざまなメリットを提供している。そこで本研究では,MOFTを活用した新しいトレーニングフリービデオモーション制御フレームワークを提案する。提案手法は,自然かつ忠実な動作を生成する上での競合性能を示し,様々な下流タスクにおいてアーキテクチャに依存しない洞察と適用性を提供する。

関連論文リスト

Moaw: Unleashing Motion Awareness for Video Diffusion Models [71.34328578845721]
Moawは動画拡散モデルのための動き認識を解放するフレームワークである。我々は、映像から映像へのモダリティを、映像から映像への追跡へとシフトさせ、運動知覚のための拡散モデルを訓練する。次に、最強の動作情報をエンコードする特徴を識別する動きラベル付きデータセットを構築し、それらを構造的に同一の映像生成モデルに注入する。
論文参考訳（メタデータ） (2026-01-19T06:45:46Z)
Bitrate-Controlled Diffusion for Disentangling Motion and Content in Video [38.71994714429696]
本稿では,動画データを動的モーションと静的コンテンツコンポーネントにアンタングルする,新しい汎用フレームワークを提案する。提案手法は,従来よりも仮定や帰納バイアスの少ない自己教師型パイプラインである。実世界の対話型ヘッドビデオにおける非交互表現学習フレームワークの動作伝達と自動回帰動作生成タスクの有効性を検証した。
論文参考訳（メタデータ） (2025-09-10T08:14:45Z)
SynMotion: Semantic-Visual Adaptation for Motion Customized Video Generation [56.90807453045657]
SynMotion(シンモクション)は、セマンティックガイダンスと視覚適応を併用した動画生成モデルである。意味レベルでは、主観と動きの表現をアンタングルする二項意味理解機構を導入する。視覚レベルでは、効率的なモーションアダプタをトレーニング済みのビデオ生成モデルに統合し、動きの忠実度と時間的コヒーレンスを高める。
論文参考訳（メタデータ） (2025-06-30T10:09:32Z)
Self-Supervised Learning of Motion Concepts by Optimizing Counterfactuals [13.202236467650033]
動画中の動きを推定することは、多くのダウンストリームアプリケーションにおいて重要なコンピュータビジョン問題である。我々は,事前学習した次フレーム予測モデルから,フローとオクルージョンの自己教師技術であるOps-CWMを開発した。我々は,ラベル付きデータを必要とせず,実世界の動画における動き推定の最先端性能を実現する。
論文参考訳（メタデータ） (2025-03-25T17:58:52Z)
MotionMatcher: Motion Customization of Text-to-Video Diffusion Models via Motion Feature Matching [27.28898943916193]
テキスト・ツー・ビデオ(T2V)拡散モデルは、入力されたテキスト・プロンプトからリアルな動画を合成する有望な能力を持つ。本研究では,モーションガイダンスとして参照映像が提供される動作カスタマイズ問題に取り組む。我々は,事前学習したT2V拡散モデルを特徴レベルで微調整するモーションカスタマイズフレームワークであるMotionMatcherを提案する。
論文参考訳（メタデータ） (2025-02-18T19:12:51Z)
VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models [71.9811050853964]
VideoJAMは、ビデオジェネレータの前に効果的な動きを注入する新しいフレームワークである。 VideoJAMは動きコヒーレンスにおける最先端のパフォーマンスを達成する。これらの知見は、外観と動きが相補的であり、効果的に統合されると、映像生成の視覚的品質とコヒーレンスの両方を高めることを強調した。
論文参考訳（メタデータ） (2025-02-04T17:07:10Z)
MotionFlow: Attention-Driven Motion Transfer in Video Diffusion Models [3.2311303453753033]
動画拡散モデルにおける動き伝達のための新しいフレームワークであるMotionFlowを紹介する。本手法は,空間的・時間的ダイナミクスを正確に把握し,操作するために,クロスアテンションマップを利用する。実験の結果,MotionFlowは劇的なシーン変化であっても,忠実度と汎用性の両方で既存モデルよりも優れていた。
論文参考訳（メタデータ） (2024-12-06T18:59:12Z)
MoTrans: Customized Motion Transfer with Text-driven Video Diffusion Models [59.10171699717122]
MoTransは、新しいコンテキストにおける類似した動きのビデオ生成を可能にする、カスタマイズされたモーション転送方式である。再カプセル化されたプロンプトとビデオフレームからのマルチモーダル表現は、外観のモデリングを促進する。本手法は, 特定の動きパターンを, 単一の参照ビデオや複数参照ビデオから効果的に学習する。
論文参考訳（メタデータ） (2024-12-02T10:07:59Z)
MotionCom: Automatic and Motion-Aware Image Composition with LLM and Video Diffusion Prior [51.672193627686]
MotionComは、トレーニングなしのモーションアウェア拡散に基づく画像合成である。ターゲットオブジェクトを動的にコヒーレントな結果で新しいシーンにシームレスに統合することを可能にする。
論文参考訳（メタデータ） (2024-09-16T08:44:17Z)
Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。 SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文参考訳（メタデータ） (2024-03-22T14:47:18Z)
Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。 SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文参考訳（メタデータ） (2024-03-15T10:36:24Z)
Customizing Motion in Text-to-Video Diffusion Models [79.4121510826141]
動作をカスタマイズしたテキスト・ビデオ・ジェネレーション・モデルを構築するためのアプローチを提案する。入力として特定の動きを示すビデオサンプルを活用することで,入力動作パターンを多種多様なテキスト特定シナリオに対して学習し,一般化する。
論文参考訳（メタデータ） (2023-12-07T18:59:03Z)
TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。 TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。 TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文参考訳（メタデータ） (2023-12-01T15:24:38Z)
Motion-Conditioned Diffusion Model for Controllable Video Synthesis [75.367816656045]
本稿では,開始画像フレームと一組のストロークから映像を生成する条件拡散モデルであるMCDiffを紹介する。 MCDiffはストローク誘導制御可能なビデオ合成における最先端の視覚的品質を実現する。
論文参考訳（メタデータ） (2023-04-27T17:59:32Z)
Self-Supervised Video Representation Learning with Motion-Contrastive Perception [13.860736711747284]
モーションコントラスト知覚ネットワーク(MCPNet) MCPNetは、MIP(Motion Information Perception)とCIP(Contrastive Instance Perception)の2つのブランチから構成される。本手法は,現在最先端の視覚のみによる自己監督手法よりも優れています。
論文参考訳（メタデータ） (2022-04-10T05:34:46Z)
MotionSqueeze: Neural Motion Feature Learning for Video Understanding [46.82376603090792]
モーションはビデオを理解する上で重要な役割を担い、ビデオ分類のための最先端のニューラルモデルにはモーション情報が含まれる。本研究では,光学流の外部および重い計算を内部および軽量な運動特徴学習に置き換える。提案手法は,アクション認識のための4つの標準ベンチマークにおいて,少ない追加コストで大幅に向上できることを実証する。
論文参考訳（メタデータ） (2020-07-20T08:30:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。