論文の概要: Articulate That Object Part (ATOP): 3D Part Articulation via Text and Motion Personalization
- arxiv url: http://arxiv.org/abs/2502.07278v3
- Date: Sun, 09 Nov 2025 20:06:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.317415
- Title: Articulate That Object Part (ATOP): 3D Part Articulation via Text and Motion Personalization
- Title(参考訳): 対象部品(ATOP:Articulate that Object Part) : テキストとモーションパーソナライゼーションによる3次元パーツアーティキュレーション
- Authors: Aditya Vora, Sauradip Nag, Kai Wang, Hao Zhang,
- Abstract要約: ATOP(Articulate That Object Part)は、テキストプロンプトに規定された部分とその動きについて静的な3Dオブジェクトを記述するための、モーションパーソナライゼーションに基づく新規な数ショット方式である。
提案手法は,より高精度なリアルな動作サンプルを生成でき,より一般化可能な3次元動作予測を実現する。
- 参考スコア(独自算出の注目度): 12.944411575346528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present ATOP (Articulate That Object Part), a novel few-shot method based on motion personalization to articulate a static 3D object with respect to a part and its motion as prescribed in a text prompt. Given the scarcity of available datasets with motion attribute annotations, existing methods struggle to generalize well in this task. In our work, the text input allows us to tap into the power of modern-day diffusion models to generate plausible motion samples for the right object category and part. In turn, the input 3D object provides ``image prompting'' to personalize the generated motion to the very input object. Our method starts with a few-shot finetuning to inject articulation awareness to current diffusion models to learn a unique motion identifier associated with the target object part. Our finetuning is applied to a pre-trained diffusion model for controllable multi-view motion generation, trained with a small collection of reference motion frames demonstrating appropriate part motion. The resulting motion model can then be employed to realize plausible motion of the input 3D object from multiple views. At last, we transfer the personalized motion to the 3D space of the object via differentiable rendering to optimize part articulation parameters by a score distillation sampling loss. Experiments on PartNet-Mobility and ACD datasets demonstrate that our method can generate realistic motion samples with higher accuracy, leading to more generalizable 3D motion predictions compared to prior approaches in the few-shot setting.
- Abstract(参考訳): 本稿では,静的な3Dオブジェクトをテキストプロンプトに規定された部分とその動作について,動作のパーソナライズに基づく新しい数ショット方式であるATOPについて述べる。
モーション属性アノテーションで利用可能なデータセットが不足していることを考えると、既存のメソッドはこのタスクでうまく一般化するのに苦労している。
本研究では, テキスト入力により, 現代拡散モデルのパワーを活かし, 適切な対象カテゴリと部分に対する可塑性運動サンプルを生成する。
入力された3Dオブジェクトは、生成した動きを非常に入力されたオブジェクトにパーソナライズするために ``image prompting'' を提供する。
本手法は,現在拡散モデルに調音認識を注入し,対象対象部位に関連付けられたユニークな動作識別子を学習するために,数発の微調整から始める。
本研究では,制御可能な多視点モーション生成のための事前学習拡散モデルに適用し,適切な部分動作を示す参照モーションフレームの小さなコレクションをトレーニングした。
得られた動きモデルを用いて、複数のビューから入力された3Dオブジェクトの可塑性運動を実現する。
最後に,各物体の3次元空間に微分可能レンダリングによりパーソナライズされた動きを伝達し,スコア蒸留サンプリング損失によって部分的調音パラメータを最適化する。
PartNet-MobilityとACDデータセットの実験により,本手法はより高精度でリアルな動作サンプルを生成できることが実証された。
関連論文リスト
- Recovering Dynamic 3D Sketches from Videos [30.87733869892925]
Liv3Strokeは、変形可能な3Dストロークで動作中のオブジェクトを抽象化する新しいアプローチである。
まず,映像フレームから3Dポイント・クラウド・モーション・ガイダンスを意味的特徴を用いて抽出する。
提案手法は, 自然な3次元表現の集合として本質的な運動特徴を抽象化する曲線の集合を変形する。
論文 参考訳(メタデータ) (2025-03-26T08:43:21Z) - C-Drag: Chain-of-Thought Driven Motion Controller for Video Generation [81.4106601222722]
トラジェクティブに基づくモーションコントロールは、制御可能なビデオ生成のための直感的で効率的なアプローチとして登場した。
我々はC-Dragという制御可能なビデオ生成のためのチェーン・オブ・ソート型モーションコントローラを提案する。
本手法は,物体認識モジュールとChain-of-Thoughtベースの動作推論モジュールを含む。
論文 参考訳(メタデータ) (2025-02-27T08:21:03Z) - DreamScene4D: Dynamic Multi-Object Scene Generation from Monocular Videos [21.93514516437402]
本稿では,新しいビュー合成によるモノクロ映像から複数の物体の3次元動的シーンを生成するための最初のアプローチであるDreamScene4Dを紹介する。
私たちの重要な洞察は、ビデオシーンを背景とオブジェクトトラックに分解する"分解分解"アプローチです。
DAVIS, Kubric, 自撮りビデオについて, 定量的比較とユーザ嗜好調査を行った。
論文 参考訳(メタデータ) (2024-05-03T17:55:34Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - Space-Time Diffusion Features for Zero-Shot Text-Driven Motion Transfer [27.278989809466392]
本稿では,対象オブジェクトとシーンを記述する入力テキストプロンプトに準拠する動画を合成する,テキスト駆動型モーショントランスファーの新しい手法を提案する。
我々は、事前に訓練された、固定されたテキスト-ビデオ拡散モデルを活用し、生成および動きの先行情報を提供する。
論文 参考訳(メタデータ) (2023-11-28T18:03:27Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - Delving into Motion-Aware Matching for Monocular 3D Object Tracking [81.68608983602581]
異なる時間軸に沿った物体の運動キューが3次元多物体追跡において重要であることが判明した。
3つの動き認識コンポーネントからなるフレームワークであるMoMA-M3Tを提案する。
我々はnuScenesとKITTIデータセットに関する広範な実験を行い、MoMA-M3Tが最先端の手法と競合する性能を発揮することを実証した。
論文 参考訳(メタデータ) (2023-08-22T17:53:58Z) - InstMove: Instance Motion for Object-centric Video Segmentation [70.16915119724757]
本研究では,オブジェクト中心ビデオのインスタンス・モーションを表すInstMoveとインスタンス・レベル・モーションについて検討する。
InstMoveは主に画像特徴の埋め込みのないインスタンスレベルのモーション情報に依存している。
数行のコードだけで、InstMoveは3つの異なるビデオセグメンテーションタスクのために、現在のSOTAメソッドに統合できる。
論文 参考訳(メタデータ) (2023-03-14T17:58:44Z) - Temporal View Synthesis of Dynamic Scenes through 3D Object Motion
Estimation with Multi-Plane Images [8.185918509343816]
本稿では,ビデオの次のフレームを予測することを目的として,時間的視点合成(TVS)の問題について検討する。
本研究では,ユーザとオブジェクトの両方が動いている動的シーンのTVSについて考察する。
過去のフレームにおける3次元物体の動きを分離・推定し,その外挿により物体の動きを予測する。
論文 参考訳(メタデータ) (2022-08-19T17:40:13Z) - Motion-from-Blur: 3D Shape and Motion Estimation of Motion-blurred
Objects in Videos [115.71874459429381]
本研究では,映像から3次元の運動,3次元の形状,および高度に動きやすい物体の外観を同時推定する手法を提案する。
提案手法は, 高速移動物体の劣化と3次元再構成において, 従来の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-29T11:25:14Z) - NeuralDiff: Segmenting 3D objects that move in egocentric videos [92.95176458079047]
観測された3次元シーンを静的な背景と動的前景に分解する問題について検討する。
このタスクは、古典的な背景の減算問題を連想させるが、静的でダイナミックなシーンの全ての部分が大きな動きを生じさせるため、非常に難しい。
特に、自我中心のビデオについて検討し、動的コンポーネントを観察・移動するオブジェクトとアクターにさらに分離する。
論文 参考訳(メタデータ) (2021-10-19T12:51:35Z) - First Order Motion Model for Image Animation [90.712718329677]
画像アニメーションは、駆動ビデオの動きに応じて、ソース画像内のオブジェクトがアニメーションされるように、ビデオシーケンスを生成する。
我々のフレームワークは、アニメーションする特定のオブジェクトに関するアノテーションや事前情報を使わずに、この問題に対処します。
論文 参考訳(メタデータ) (2020-02-29T07:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。