Fugu-MT 論文翻訳(概要): Generative Animations: A Multi-Model Pipeline for Prompt-Driven Motion Synthesis

論文の概要: Generative Animations: A Multi-Model Pipeline for Prompt-Driven Motion Synthesis

arxiv url: http://arxiv.org/abs/2605.27203v1
Date: Tue, 26 May 2026 15:58:30 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-27 17:51:42.397118
Title: Generative Animations: A Multi-Model Pipeline for Prompt-Driven Motion Synthesis
Title（参考訳）: 生成アニメーション:プロンプト駆動運動合成のための多モデルパイプライン
Authors: Mannat Khurana, Sanyam Jain, Rishav Agarwal,
Abstract要約: 生成アニメーション(Generative Animations)は、自然言語のプロンプトをプロダクション対応のアニメーションに変換するシステムである。意味解析のためのLarge Language Model(LLM)とSAM(Segment Anything Model)をチェーンすることで、パイプラインは自動的に動きパスを生成する。本システムでは、輪郭追従軌道、z次認識を用いた軌道アニメーション、変換された物体に対する視点整合運動の3つのユースケースを実演する。
参考スコア（独自算出の注目度）: 0.688204255655161
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Animation elevates digital documents into immersive experiences, yet creating custom motion paths remains cumbersome, requiring designers to manually select presets, plot Bézier points, and configure timing properties. We introduce Generative Animations, a system that transforms natural language prompts into production-ready animations. By chaining Large Language Models (LLMs) for semantic parsing with the Segment Anything Model (SAM) for visual grounding, our pipeline automatically generates motion paths that respect scene geometry, handle depth-based occlusions, and honor 3D perspective transforms. We demonstrate the system through three use cases: contour-following trajectories, orbital animations with z-order awareness, and perspective-aligned motion on transformed objects.
Abstract（参考訳）: アニメーションはデジタル文書を没入的な体験へと高めるが、カスタムのモーションパスの作成は困難であり、デザイナは手動でプリセットを選択し、ベジエポイントをプロットし、タイミング特性を設定する必要がある。生成アニメーション(Generative Animations)は、自然言語のプロンプトをプロダクション対応のアニメーションに変換するシステムである。視覚的グラウンド化のためのセグメンテーションモデル (SAM) と意味解析のためのLarge Language Model (LLMs) を連携させることにより、パイプラインはシーン幾何学を尊重する動きパスを自動生成し、深さに基づくオクルージョンを処理し、3次元の視点変換を尊重する。本システムでは、輪郭追従軌道、z次認識を用いた軌道アニメーション、変換された物体に対する視点整合運動の3つのユースケースを実演する。

関連論文リスト

DIMO: Diverse 3D Motion Generation for Arbitrary Objects [57.14954351767432]
DIMOは、単一の画像から任意のオブジェクトに対して多様な3Dモーションを生成することができる生成的アプローチである。我々は、よく訓練されたビデオモデルにおけるリッチな事前情報を利用して、共通の動きパターンを抽出する。学習した潜時空間での推論時間の間、単方向パスで様々な3次元運動を瞬時にサンプリングすることができる。
論文参考訳（メタデータ） (2025-11-10T18:56:49Z)
Drag4D: Align Your Motion with Text-Driven 3D Scene Generation [77.79131321983677]
Drag4Dはインタラクティブなフレームワークで、テキスト駆動の3Dシーン生成にオブジェクトの動き制御を統合する。このフレームワークにより、ユーザーは単一の画像から生成された3Dオブジェクトに対して3Dトラジェクトリを定義し、それらを高品質な3D背景にシームレスに統合することができる。
論文参考訳（メタデータ） (2025-09-26T05:23:45Z)
SMF: Template-free and Rig-free Animation Transfer using Kinetic Codes [32.324844649352166]
アニメーション再ターゲッティングはキャラクタメッシュにスパース動作記述を適用し、意味論的に妥当で時間的に整合したフルボディシーケンスを生成する。本稿では,スパース動作表現のみを訓練した自己教師型運動場(SMF)を提案する。我々のアーキテクチャは、エンドツーエンドで共同で訓練された専用空間勾配予測器と時間勾配予測器から構成される。
論文参考訳（メタデータ） (2025-04-07T08:42:52Z)
Recovering Dynamic 3D Sketches from Videos [30.87733869892925]
Liv3Strokeは、変形可能な3Dストロークで動作中のオブジェクトを抽象化する新しいアプローチである。まず,映像フレームから3Dポイント・クラウド・モーション・ガイダンスを意味的特徴を用いて抽出する。提案手法は, 自然な3次元表現の集合として本質的な運動特徴を抽象化する曲線の集合を変形する。
論文参考訳（メタデータ） (2025-03-26T08:43:21Z)
Animating the Uncaptured: Humanoid Mesh Animation with Video Diffusion Models [71.78723353724493]
ヒューマノイド文字のアニメーションは、様々なグラフィックス応用において不可欠である。入力された静的な3次元ヒューマノイドメッシュの4次元アニメーションシーケンスを合成する手法を提案する。
論文参考訳（メタデータ） (2025-03-20T10:00:22Z)
Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics [79.4785166021062]
本稿では,対話型ビデオジェネレータPuppet-Masterを紹介した。 Puppet-Masterは、他のモーションコンディショニングビデオジェネレータとは異なり、パートレベルのモーションを生成することを学習している。 Puppet-Masterはドメイン外の実際のイメージを一般化し、実世界のベンチマークで既存のメソッドよりも優れています。
論文参考訳（メタデータ） (2024-08-08T17:59:38Z)
Self-Supervised Equivariant Scene Synthesis from Video [84.15595573718925]
本稿では,映像からシーン表現を学習するフレームワークを提案する。トレーニング後、画像エンコーディングをリアルタイムで操作して、非表示のコンポーネントの組み合わせを生成することができる。背景を持つMNISTの移動、2Dビデオゲームのスプライト、ファッションモデリングの3つのデータセットで結果を示す。
論文参考訳（メタデータ） (2021-02-01T14:17:31Z)
Going beyond Free Viewpoint: Creating Animatable Volumetric Video of Human Performances [7.7824496657259665]
本稿では,人間の演奏の高品質な映像コンテンツ作成のためのエンドツーエンドパイプラインを提案する。セマンティックエンリッチメントと幾何学的アニメーション能力は、3Dデータに時間的一貫性を確立することによって達成される。ポーズ編集では、キャプチャしたデータを可能な限り活用し、キャプチャしたフレームをキネマティックに変形して所望のポーズに適合させる。
論文参考訳（メタデータ） (2020-09-02T09:46:12Z)
First Order Motion Model for Image Animation [90.712718329677]
画像アニメーションは、駆動ビデオの動きに応じて、ソース画像内のオブジェクトがアニメーションされるように、ビデオシーケンスを生成する。我々のフレームワークは、アニメーションする特定のオブジェクトに関するアノテーションや事前情報を使わずに、この問題に対処します。
論文参考訳（メタデータ） (2020-02-29T07:08:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。