論文の概要: Articulate That Object Part (ATOP): 3D Part Articulation via Text and Motion Personalization
- arxiv url: http://arxiv.org/abs/2502.07278v2
- Date: Thu, 13 Mar 2025 23:51:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:03:52.941470
- Title: Articulate That Object Part (ATOP): 3D Part Articulation via Text and Motion Personalization
- Title(参考訳): 対象部品(ATOP:Articulate that Object Part) : テキストとモーションパーソナライゼーションによる3次元パーツアーティキュレーション
- Authors: Aditya Vora, Sauradip Nag, Hao Zhang,
- Abstract要約: ATOP(Articulate That Object Part)は、静的な3Dオブジェクトを明瞭化するためのモーションパーソナライゼーションに基づく、新しい数ショット方式である。
提案手法は,現実的な動画を生成し,より正確で一般化可能な3次元動作パラメータを予測できることを示す。
- 参考スコア(独自算出の注目度): 9.231848716070257
- License:
- Abstract: We present ATOP (Articulate That Object Part), a novel few-shot method based on motion personalization to articulate a static 3D object with respect to a part and its motion as prescribed in a text prompt. Given the scarcity of available datasets with motion attribute annotations, existing methods struggle to generalize well in this task. In our work, the text input allows us to tap into the power of modern-day diffusion models to generate plausible motion samples for the right object category and part. In turn, the input 3D object provides image prompting to personalize the generated video to that very object we wish to articulate. Our method starts with a few-shot finetuning for category-specific motion generation, a key first step to compensate for the lack of articulation awareness by current diffusion models. For this, we finetune a pre-trained multi-view image generation model for controllable multi-view video generation, using a small collection of video samples obtained for the target object category. This is followed by motion video personalization that is realized by multi-view rendered images of the target 3D object. At last, we transfer the personalized video motion to the target 3D object via differentiable rendering to optimize part motion parameters by a score distillation sampling loss. Experimental results on PartNet-Sapien and ACD datasets show that our method is capable of generating realistic motion videos and predicting 3D motion parameters in a more accurate and generalizable way, compared to prior works in the few-shot setting.
- Abstract(参考訳): 本稿では,静的な3Dオブジェクトをテキストプロンプトに規定された部分とその動作について,動作のパーソナライズに基づく新しい数ショット方式であるATOPについて述べる。
モーション属性アノテーションで利用可能なデータセットが不足していることを考えると、既存のメソッドはこのタスクでうまく一般化するのに苦労している。
本研究では, テキスト入力により, 現代拡散モデルのパワーを活かし, 適切な対象カテゴリと部分に対する可塑性運動サンプルを生成する。
すると、入力された3Dオブジェクトは、生成した動画を、私たちが表現したいオブジェクトにパーソナライズするためのイメージプロンプトを提供する。
提案手法は,現在拡散モデルによる調音認識の欠如を補うための重要な第一歩である,カテゴリー別動作生成のための数発の微調整から始まる。
そこで本研究では,対象のカテゴリに対して得られたビデオサンプルの小さなコレクションを用いて,制御可能なマルチビュー映像生成のための事前学習されたマルチビュー画像生成モデルを精査する。
次に、ターゲット3Dオブジェクトのマルチビューレンダリング画像によって実現されたモーションビデオパーソナライズを行う。
最終的に、個人化された映像の動作を、微分レンダリングによりターゲット3Dオブジェクトに転送し、スコア蒸留サンプリング損失によって部分運動パラメータを最適化する。
PartNet-Sapien と ACD のデータセットによる実験結果から,本手法はより正確で汎用的な3次元モーションパラメータの予測が可能であることが示唆された。
関連論文リスト
- VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - Space-Time Diffusion Features for Zero-Shot Text-Driven Motion Transfer [27.278989809466392]
本稿では,対象オブジェクトとシーンを記述する入力テキストプロンプトに準拠する動画を合成する,テキスト駆動型モーショントランスファーの新しい手法を提案する。
我々は、事前に訓練された、固定されたテキスト-ビデオ拡散モデルを活用し、生成および動きの先行情報を提供する。
論文 参考訳(メタデータ) (2023-11-28T18:03:27Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - Delving into Motion-Aware Matching for Monocular 3D Object Tracking [81.68608983602581]
異なる時間軸に沿った物体の運動キューが3次元多物体追跡において重要であることが判明した。
3つの動き認識コンポーネントからなるフレームワークであるMoMA-M3Tを提案する。
我々はnuScenesとKITTIデータセットに関する広範な実験を行い、MoMA-M3Tが最先端の手法と競合する性能を発揮することを実証した。
論文 参考訳(メタデータ) (2023-08-22T17:53:58Z) - Temporal View Synthesis of Dynamic Scenes through 3D Object Motion
Estimation with Multi-Plane Images [8.185918509343816]
本稿では,ビデオの次のフレームを予測することを目的として,時間的視点合成(TVS)の問題について検討する。
本研究では,ユーザとオブジェクトの両方が動いている動的シーンのTVSについて考察する。
過去のフレームにおける3次元物体の動きを分離・推定し,その外挿により物体の動きを予測する。
論文 参考訳(メタデータ) (2022-08-19T17:40:13Z) - Motion-from-Blur: 3D Shape and Motion Estimation of Motion-blurred
Objects in Videos [115.71874459429381]
本研究では,映像から3次元の運動,3次元の形状,および高度に動きやすい物体の外観を同時推定する手法を提案する。
提案手法は, 高速移動物体の劣化と3次元再構成において, 従来の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-29T11:25:14Z) - NeuralDiff: Segmenting 3D objects that move in egocentric videos [92.95176458079047]
観測された3次元シーンを静的な背景と動的前景に分解する問題について検討する。
このタスクは、古典的な背景の減算問題を連想させるが、静的でダイナミックなシーンの全ての部分が大きな動きを生じさせるため、非常に難しい。
特に、自我中心のビデオについて検討し、動的コンポーネントを観察・移動するオブジェクトとアクターにさらに分離する。
論文 参考訳(メタデータ) (2021-10-19T12:51:35Z) - Flow Guided Transformable Bottleneck Networks for Motion Retargeting [29.16125343915916]
既存の取り組みでは、対象者ごとの長いトレーニング映像を利用して、対象者固有のモーショントランスファーモデルをトレーニングしている。
ターゲットからの1枚または数枚の画像しか必要としないモーショントランスファー技術が近年注目されている。
本稿では,トランスフォーマブル・ボトルネックネットワークにヒントを得て,画像内容の暗黙の容積表現に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-14T21:58:30Z) - First Order Motion Model for Image Animation [90.712718329677]
画像アニメーションは、駆動ビデオの動きに応じて、ソース画像内のオブジェクトがアニメーションされるように、ビデオシーケンスを生成する。
我々のフレームワークは、アニメーションする特定のオブジェクトに関するアノテーションや事前情報を使わずに、この問題に対処します。
論文 参考訳(メタデータ) (2020-02-29T07:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。