Fugu-MT 論文翻訳(概要): TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models

論文の概要: TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models

arxiv url: http://arxiv.org/abs/2312.00651v2
Date: Wed, 20 Mar 2024 17:28:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-21 22:08:02.195714
Title: TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models
Title（参考訳）: トラック拡散:拡散モデルによるトラックレットによるビデオ生成
Authors: Pengxiang Li, Kai Chen, Zhili Liu, Ruiyuan Gao, Lanqing Hong, Guo Zhou, Hua Yao, Dit-Yan Yeung, Huchuan Lu, Xu Jia,
Abstract要約: 微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。 TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。 TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
参考スコア（独自算出の注目度）: 75.20168902300166
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite remarkable achievements in video synthesis, achieving granular control over complex dynamics, such as nuanced movement among multiple interacting objects, still presents a significant hurdle for dynamic world modeling, compounded by the necessity to manage appearance and disappearance, drastic scale changes, and ensure consistency for instances across frames. These challenges hinder the development of video generation that can faithfully mimic real-world complexity, limiting utility for applications requiring high-level realism and controllability, including advanced scene simulation and training of perception systems. To address that, we propose TrackDiffusion, a novel video generation framework affording fine-grained trajectory-conditioned motion control via diffusion models, which facilitates the precise manipulation of the object trajectories and interactions, overcoming the prevalent limitation of scale and continuity disruptions. A pivotal component of TrackDiffusion is the instance enhancer, which explicitly ensures inter-frame consistency of multiple objects, a critical factor overlooked in the current literature. Moreover, we demonstrate that generated video sequences by our TrackDiffusion can be used as training data for visual perception models. To the best of our knowledge, this is the first work to apply video diffusion models with tracklet conditions and demonstrate that generated frames can be beneficial for improving the performance of object trackers.
Abstract（参考訳）: ビデオ合成における顕著な成果にもかかわらず、複数の相互作用する物体間のニュアンス運動のような複雑なダイナミクスのきめ細かい制御を達成することは、外見と消失を管理する必要性、劇的なスケール変化、フレーム間のインスタンスの整合性の確保など、動的世界モデリングにとって重要なハードルとなる。これらの課題は、現実世界の複雑さを忠実に模倣できるビデオ生成の開発を妨げ、高度なシーンシミュレーションや知覚システムの訓練を含む、ハイレベルなリアリズムと制御性を必要とするアプリケーションのためのユーティリティを制限している。そこで本研究では,物体の軌跡と相互作用の精密な操作を容易にする拡散モデルによる微粒な軌跡条件制御を実現する新しいビデオ生成フレームワークであるTrackDiffusionを提案する。 TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。さらに,トラック拡散によって生成された映像シーケンスを視覚知覚モデルのトレーニングデータとして利用できることを示す。我々の知る限り、これはトラックレット条件付きビデオ拡散モデルを適用し、生成したフレームがオブジェクトトラッカーの性能向上に有用であることを示す最初の試みである。

関連論文リスト

SViMo: Synchronized Diffusion for Video and Motion Generation in Hand-object Interaction Scenarios [48.09735396455107]
ハンドオブジェクトインタラクション(HOI)生成には、大きな応用可能性がある。現在の3D HOIモーション生成アプローチは、事前に定義された3Dオブジェクトモデルとラボでキャプチャされたモーションデータに大きく依存している。本稿では,同期拡散プロセス内での視覚的事前制約と動的制約を組み合わせることで,HOIビデオと動きを同時に生成するフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-03T05:04:29Z)
MOVi: Training-free Text-conditioned Multi-Object Video Generation [43.612899589093075]
拡散モデルと大言語モデル(LLM)のオープンワールド知識を活用するマルチオブジェクトビデオ生成のためのトレーニング不要なアプローチを提案する。 LLMをオブジェクト軌跡のディレクタ'として使用し、ノイズ再初期化によるトラジェクトリを適用して現実的な動きを正確に制御する。既存のビデオ拡散モデルのマルチオブジェクト生成能力を著しく向上する学習自由アプローチの有効性を実験により検証した。
論文参考訳（メタデータ） (2025-05-29T01:41:10Z)
RAGME: Retrieval Augmented Video Generation for Enhanced Motion Realism [73.38167494118746]
生成ビデオにおける動きのリアリズムを改善するための枠組みを提案する。生成フェーズにおける検索機構の導入を提唱する。私たちのパイプラインは、どんなテキスト間拡散モデルにも適用できるように設計されています。
論文参考訳（メタデータ） (2025-04-09T08:14:05Z)
Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better [61.381599921020175]
時間的一貫性は、出力が一貫性があり、アーティファクトがないことを保証するために、ビデオ予測において重要である。時間的注意や3D畳み込みといった伝統的な手法は、重要な物体の動きに苦しむことがある。本稿では,ポイントトラックを用いた動き情報を明示的に統合する新しいアーキテクチャコンポーネントであるトラックキート・レイヤを提案する。
論文参考訳（メタデータ） (2025-03-25T17:58:48Z)
Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文参考訳（メタデータ） (2025-02-10T14:49:09Z)
VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models [71.9811050853964]
VideoJAMは、ビデオジェネレータの前に効果的な動きを注入する新しいフレームワークである。 VideoJAMは動きコヒーレンスにおける最先端のパフォーマンスを達成する。これらの知見は、外観と動きが相補的であり、効果的に統合されると、映像生成の視覚的品質とコヒーレンスの両方を高めることを強調した。
論文参考訳（メタデータ） (2025-02-04T17:07:10Z)
DINTR: Tracking via Diffusion-based Interpolation [12.130669304428565]
本研究は,トラッキングタスクを定式化するための拡散に基づく新しい手法を提案する。我々のInterpolation TrackeR(DINTR)は、将来性のある新しいパラダイムを示し、5つの指標表現にまたがる7つのベンチマークにおいて優れた乗法を実現する。
論文参考訳（メタデータ） (2024-10-14T00:41:58Z)
E-Motion: Future Motion Simulation via Event Sequence Diffusion [86.80533612211502]
イベントベースのセンサーは、これまで達成できなかった詳細と精度で将来の動きを予測するユニークな機会を提供する可能性がある。本稿では,映像拡散モデルの強力な学習能力とイベントカメラのリッチな動作情報とを,モーションシミュレーションフレームワークとして統合することを提案する。本研究は,コンピュータビジョンシステムの解釈能力と予測精度の向上に向けた今後の研究の方向性を示唆するものである。
論文参考訳（メタデータ） (2024-10-11T09:19:23Z)
Video Diffusion Models are Training-free Motion Interpreter and Controller [20.361790608772157]
本稿では,映像拡散モデルにおける動き認識機能を理解し,ローカライズし,操作するための新しい視点を提案する。コンテンツ相関情報とフィルタリング動作チャネルを除去し,MOFT(Motion FeaTure)を提案する。
論文参考訳（メタデータ） (2024-05-23T17:59:40Z)
Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。 SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文参考訳（メタデータ） (2024-03-22T14:47:18Z)
Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。 SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文参考訳（メタデータ） (2024-03-15T10:36:24Z)
Learn the Force We Can: Enabling Sparse Motion Control in Multi-Object Video Generation [26.292052071093945]
単一のフレームとスパース動作入力からビデオを生成する教師なしの手法を提案する。我々の訓練されたモデルは、目に見えない現実的なオブジェクト間相互作用を生成できる。ヨダは、制御性と映像品質の両面において、先行するアートビデオ生成の状況と同等かそれ以上であることを示す。
論文参考訳（メタデータ） (2023-06-06T19:50:02Z)
MotionTrack: Learning Motion Predictor for Multiple Object Tracking [68.68339102749358]
本研究では,学習可能なモーション予測器を中心に,新しいモーショントラッカーであるMotionTrackを紹介する。実験結果から、MotionTrackはDancetrackやSportsMOTといったデータセット上での最先端のパフォーマンスを示す。
論文参考訳（メタデータ） (2023-06-05T04:24:11Z)
Trace and Pace: Controllable Pedestrian Animation via Guided Trajectory Diffusion [83.88829943619656]
本研究では,現実的な歩行者軌跡生成手法と,ユーザ定義目標を達成するために制御可能なフルボディアニメーションを提案する。我々のガイド付き拡散モデルでは,対象とする経路,速度,特定社会集団による軌道の制約が可能である。本稿では,アニメーションコントローラのRLトレーニング中に学習した値関数を用いて,拡散を誘導し,特定のシナリオに適した軌道を生成することを提案する。
論文参考訳（メタデータ） (2023-04-04T15:46:42Z)
Controllable Motion Synthesis and Reconstruction with Autoregressive Diffusion Models [18.50942770933098]
MoDiff(モディフ)は、他のモードの制御コンテキストに条件付けられた動き列上の自己回帰的確率拡散モデルである。本モデルでは、モーダルトランスフォーマーエンコーダとトランスフォーマーベースのデコーダを統合し、動作の時間的相関と制御のモダリティを捉えるのに有効である。
論文参考訳（メタデータ） (2023-04-03T08:17:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。