論文の概要: LAMP: Language-Assisted Motion Planning for Controllable Video Generation
- arxiv url: http://arxiv.org/abs/2512.03619v1
- Date: Wed, 03 Dec 2025 09:51:13 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:09:17.346567
- Title: LAMP: Language-Assisted Motion Planning for Controllable Video Generation
- Title(参考訳): LAMP:制御可能なビデオ生成のための言語支援モーションプランニング
- Authors: Muhammed Burak Kizil, Enes Sanli, Niloy J. Mitra, Erkut Erdem, Aykut Erdem, Duygu Ceylan,
- Abstract要約: 運動プランナとして大規模言語モデル(LLM)を活用するLAMPを導入し、自然言語記述を動的オブジェクトやカメラのための明示的な3Dトラジェクトリに変換する。
LLMは自然言語から構造化された運動プログラムを生成し、決定論的に3次元軌跡にマッピングされる。
実験では、LAMPの動作制御性とユーザ意図との整合性の向上が、最先端の代替技術と比較して実証されている。
- 参考スコア(独自算出の注目度): 46.55844620442438
- License:
- Abstract: Video generation has achieved remarkable progress in visual fidelity and controllability, enabling conditioning on text, layout, or motion. Among these, motion control - specifying object dynamics and camera trajectories - is essential for composing complex, cinematic scenes, yet existing interfaces remain limited. We introduce LAMP that leverages large language models (LLMs) as motion planners to translate natural language descriptions into explicit 3D trajectories for dynamic objects and (relatively defined) cameras. LAMP defines a motion domain-specific language (DSL), inspired by cinematography conventions. By harnessing program synthesis capabilities of LLMs, LAMP generates structured motion programs from natural language, which are deterministically mapped to 3D trajectories. We construct a large-scale procedural dataset pairing natural text descriptions with corresponding motion programs and 3D trajectories. Experiments demonstrate LAMP's improved performance in motion controllability and alignment with user intent compared to state-of-the-art alternatives establishing the first framework for generating both object and camera motions directly from natural language specifications.
- Abstract(参考訳): ビデオ生成は、テキスト、レイアウト、モーションの条件付けを可能にすることで、視覚的忠実度と制御性において顕著な進歩を遂げた。
これらのうち、モーションコントロール - オブジェクトのダイナミクスとカメラの軌跡を指定する - は複雑な撮影シーンを構成するのに不可欠だが、既存のインタフェースは限られている。
運動プランナとして大規模言語モデル(LLM)を活用するLAMPを導入し、自然言語記述を動的オブジェクトや(相対的に定義された)カメラのための明示的な3Dトラジェクトリに変換する。
LAMPは映画撮影の慣習にインスパイアされた動きドメイン特化言語(DSL)を定義する。
LLMのプログラム合成機能を利用することで、LAMPは自然言語から構造化された運動プログラムを生成し、3次元軌跡に決定的にマッピングする。
本研究では,対応する動作プログラムと3Dトラジェクトリを併用した,自然なテキスト記述を組み合わせた大規模手続きデータセットを構築した。
実験では、オブジェクトとカメラの両方のモーションを直接自然言語仕様から生成する最初のフレームワークを確立する最先端の代替手段と比較して、LAMPの動作制御性とユーザ意図との整合性の向上が示されている。
関連論文リスト
- MotionAgent: Fine-grained Controllable Video Generation via Motion Field Agent [55.15697390165972]
テキスト誘導画像-映像生成のための微粒なモーション制御を実現するMotionAgentを提案する。
キーとなる技術は、テキストプロンプトの動作情報を明示的な運動場に変換するモーション・フィールド・エージェントである。
我々はVBenchのサブセットを構築し、テキストと生成されたビデオの動作情報のアライメントを評価する。
論文 参考訳(メタデータ) (2025-02-05T14:26:07Z) - LayoutVLM: Differentiable Optimization of 3D Layout via Vision-Language Models [57.92316645992816]
空間的推論は人間の認知の基本的側面であり、三次元空間における物体の直感的な理解と操作を可能にする。
視覚言語モデル(VLM)のセマンティック知識を活用するフレームワークおよびシーンレイアウト表現であるLayoutVLMを紹介する。
本稿では,既存のシーンデータセットから抽出したシーンレイアウト表現を用いた微調整VLMによる推論性能の向上を実証する。
論文 参考訳(メタデータ) (2024-12-03T06:15:04Z) - MotionGPT-2: A General-Purpose Motion-Language Model for Motion Generation and Understanding [76.30210465222218]
MotionGPT-2は、MLMLM(Large Motion-Language Model)である。
LLM(Large Language Models)によるマルチモーダル制御をサポートしている。
難易度の高い3次元全体運動生成タスクに高い適応性を持つ。
論文 参考訳(メタデータ) (2024-10-29T05:25:34Z) - LaMP: Language-Motion Pretraining for Motion Generation, Retrieval, and Captioning [19.801187860991117]
この新しいLanguage-Motion PretrainingモデルであるLaMPを紹介する。
LaMPは、モーションインフォームティブなテキスト埋め込みを生成し、生成されたモーションシーケンスの関連性とセマンティックスを大幅に強化する。
キャプションでは,言語非表現の動作特徴を持つ大きな言語モデルを微調整し,強力な動きキャプションモデルを開発する。
論文 参考訳(メタデータ) (2024-10-09T17:33:03Z) - InteractPro: A Unified Framework for Motion-Aware Image Composition [54.407337049352556]
動的モーション認識画像合成のための包括的フレームワークであるInteractProを紹介する。
コアとなるInteractPlanは、シナリオ分析とオブジェクト配置にLVLM(Large Vision Language Model)を活用するインテリジェントプランナーである。
それぞれのシナリオに基づいて、InteractPlanは2つの特別なモジュール、InteractPhysとInteractMotionを選択します。
論文 参考訳(メタデータ) (2024-09-16T08:44:17Z) - MotionScript: Natural Language Descriptions for Expressive 3D Human Motions [6.710007544943157]
人間の3次元動作の詳細な自然言語記述を生成するための新しいフレームワークであるMotionScriptを紹介した。
MotionScriptは、人間の動きの完全な複雑さを捉える、きめ細かい構造化された記述を提供する。
MotionScriptは、テキスト・トゥ・モーションモデルのための記述ツールとトレーニングリソースの両方として機能する。
論文 参考訳(メタデータ) (2023-12-19T22:33:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。