Fugu-MT 論文翻訳(概要): Learn the Force We Can: Enabling Sparse Motion Control in Multi-Object Video Generation

論文の概要: Learn the Force We Can: Enabling Sparse Motion Control in Multi-Object Video Generation

arxiv url: http://arxiv.org/abs/2306.03988v2
Date: Sun, 14 Jan 2024 00:29:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-18 02:32:20.219418
Title: Learn the Force We Can: Enabling Sparse Motion Control in Multi-Object Video Generation
Title（参考訳）: フォースを学べる:マルチオブジェクトビデオ生成におけるスパースモーション制御の実現
Authors: Aram Davtyan and Paolo Favaro
Abstract要約: 単一のフレームとスパース動作入力からビデオを生成する教師なしの手法を提案する。我々の訓練されたモデルは、目に見えない現実的なオブジェクト間相互作用を生成できる。ヨダは、制御性と映像品質の両面において、先行するアートビデオ生成の状況と同等かそれ以上であることを示す。
参考スコア（独自算出の注目度）: 26.292052071093945
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose a novel unsupervised method to autoregressively generate videos from a single frame and a sparse motion input. Our trained model can generate unseen realistic object-to-object interactions. Although our model has never been given the explicit segmentation and motion of each object in the scene during training, it is able to implicitly separate their dynamics and extents. Key components in our method are the randomized conditioning scheme, the encoding of the input motion control, and the randomized and sparse sampling to enable generalization to out of distribution but realistic correlations. Our model, which we call YODA, has therefore the ability to move objects without physically touching them. Through extensive qualitative and quantitative evaluations on several datasets, we show that YODA is on par with or better than state of the art video generation prior work in terms of both controllability and video quality.
Abstract（参考訳）: 本研究では,単一のフレームとスパース動作入力から映像を自動回帰生成する新しい教師なし手法を提案する。我々の訓練されたモデルは、目に見えない現実的なオブジェクト間相互作用を生成できる。私たちのモデルは、トレーニング中にシーン内の各オブジェクトの明示的なセグメンテーションと動きを与えられることはないが、それらのダイナミクスと範囲を暗黙的に分離することができる。本手法の重要な構成要素は, ランダム化条件付けスキーム, 入力動作制御の符号化, ランダム化およびスパースサンプリングであり, 分布域外への一般化を可能にする。ヨーダと呼ばれる我々のモデルは、物理的に触れることなく物体を動かすことができる。いくつかのデータセットの定性的・定量的な評価を通じて, YODAは, 制御性と映像品質の両面で, 先行研究の最先端技術と同等かそれ以上であることを示す。

関連論文リスト

Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [72.00655365269]
本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
論文参考訳（メタデータ） (2025-06-02T17:57:06Z)
MOVi: Training-free Text-conditioned Multi-Object Video Generation [43.612899589093075]
拡散モデルと大言語モデル(LLM)のオープンワールド知識を活用するマルチオブジェクトビデオ生成のためのトレーニング不要なアプローチを提案する。 LLMをオブジェクト軌跡のディレクタ'として使用し、ノイズ再初期化によるトラジェクトリを適用して現実的な動きを正確に制御する。既存のビデオ拡散モデルのマルチオブジェクト生成能力を著しく向上する学習自由アプローチの有効性を実験により検証した。
論文参考訳（メタデータ） (2025-05-29T01:41:10Z)
GENMO: A GENeralist Model for Human MOtion [64.16188966024542]
本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。我々の新しいアーキテクチャは、可変長動きと混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を異なる時間間隔で処理し、柔軟な制御を提供する。
論文参考訳（メタデータ） (2025-05-02T17:59:55Z)
ObjectMover: Generative Object Movement with Video Prior [69.75281888309017]
本稿では,難易度の高いシーンでオブジェクトの動きを再現できる生成モデルであるObjectMoverを提案する。このアプローチにより、我々のモデルは複雑な現実世界のシナリオに適応できることを示す。本稿では,実世界の映像データを学習してモデル一般化を改善するマルチタスク学習戦略を提案する。
論文参考訳（メタデータ） (2025-03-11T04:42:59Z)
C-Drag: Chain-of-Thought Driven Motion Controller for Video Generation [81.4106601222722]
トラジェクティブに基づくモーションコントロールは、制御可能なビデオ生成のための直感的で効率的なアプローチとして登場した。我々はC-Dragという制御可能なビデオ生成のためのチェーン・オブ・ソート型モーションコントローラを提案する。本手法は,物体認識モジュールとChain-of-Thoughtベースの動作推論モジュールを含む。
論文参考訳（メタデータ） (2025-02-27T08:21:03Z)
Articulate That Object Part (ATOP): 3D Part Articulation via Text and Motion Personalization [9.231848716070257]
ATOP(Articulate That Object Part)は、静的な3Dオブジェクトを明瞭化するためのモーションパーソナライゼーションに基づく、新しい数ショット方式である。提案手法は,現実的な動画を生成し,より正確で一般化可能な3次元動作パラメータを予測できることを示す。
論文参考訳（メタデータ） (2025-02-11T05:47:16Z)
InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブな動画像を生成するフレームワークであるInterDynを提案する。我々の重要な洞察は、大規模なビデオ生成モデルは、大規模ビデオデータからインタラクティブなダイナミクスを学習し、ニューラルと暗黙の物理シミュレーターの両方として機能できるということです。
論文参考訳（メタデータ） (2024-12-16T13:57:02Z)
Improving Dynamic Object Interactions in Text-to-Video Generation with AI Feedback [130.090296560882]
テキスト・ビデオ・モデルにおけるオブジェクトの動的性を高めるためのフィードバックの利用について検討する。本手法は,動的インタラクションにおける映像品質の大幅な向上を駆動するバイナリAIフィードバックを用いて,多様な報酬を効果的に最適化できることを示す。
論文参考訳（メタデータ） (2024-12-03T17:44:23Z)
Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics [67.97235923372035]
本稿では,対話型ビデオ生成モデルであるPuppet-Masterについて紹介する。テスト時には、ひとつのイメージと粗い動き軌跡が与えられた場合、Puppet-Masterは、与えられたドラッグ操作に忠実な現実的な部分レベルの動きを描写したビデオを合成することができる。
論文参考訳（メタデータ） (2024-08-08T17:59:38Z)
EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文参考訳（メタデータ） (2024-06-28T10:39:36Z)
Purposer: Putting Human Motion Generation in Context [30.706219830149504]
本研究では,3次元屋内シーンに人間の動きを再現する新しい手法を提案する。シーン内のパス、ターゲットポーズ、過去の動き、そして3Dポイントの雲として表されるシーンなど、様々な条件信号の組み合わせで制御できる。
論文参考訳（メタデータ） (2024-04-19T15:16:04Z)
CAGE: Unsupervised Visual Composition and Animation for Controllable Video Generation [42.475807996071175]
制御可能で合成可能なビデオ生成のための教師なしのアプローチを導入する。私たちのモデルは、注釈のないビデオのデータセットをスクラッチからトレーニングしています。空間と時間の所望の場所にオブジェクトを配置することで、可愛らしい斬新なシーンを作成し、オブジェクトをアニメーション化することができる。
論文参考訳（メタデータ） (2024-03-21T12:50:15Z)
CAGE: Controllable Articulation GEneration [14.002289666443529]
分割拡散法を用いて, 部品形状, 接続性, 動きの相互作用を利用する。本手法では,オブジェクトカテゴリラベルと部分接続グラフを入力として,オブジェクトの形状と運動パラメータを生成する。実験の結果,本手法は音声オブジェクト生成における最先端の手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2023-12-15T07:04:27Z)
TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。 TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。 TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文参考訳（メタデータ） (2023-12-01T15:24:38Z)
ROAM: Robust and Object-Aware Motion Generation Using Neural Pose Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文参考訳（メタデータ） (2023-08-24T17:59:51Z)
Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。このタスクは、ビデオにおける空間的および時間的局所化を統一する。我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文参考訳（メタデータ） (2023-06-20T17:57:23Z)
Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文参考訳（メタデータ） (2023-05-06T09:07:01Z)
Understanding Object Dynamics for Interactive Image-to-Video Synthesis [8.17925295907622]
本稿では,局所的な操作によって自然に見えるグローバルな調音をピクセルレベルで学習する手法を提案する。我々の生成モデルは、ユーザインタラクションに対する応答として、自然なオブジェクトのダイナミクスを推論することを学ぶ。ビデオ予測に関する既存の研究とは対照的に、任意のリアルなビデオは合成しない。
論文参考訳（メタデータ） (2021-06-21T17:57:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。