論文の概要: Articulate3D: Zero-Shot Text-Driven 3D Object Posing
- arxiv url: http://arxiv.org/abs/2508.19244v1
- Date: Tue, 26 Aug 2025 17:59:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.946907
- Title: Articulate3D: Zero-Shot Text-Driven 3D Object Posing
- Title(参考訳): Articulate3D: ゼロショットテキスト駆動型3Dオブジェクトマッピング
- Authors: Oishi Deb, Anjun Hu, Ashkan Khakzar, Philip Torr, Christian Rupprecht,
- Abstract要約: 本稿では,言語制御による3Dアセットの提示を目的とした,トレーニング不要なArticulate3Dを提案する。
我々は、入力画像に条件付けされたターゲット画像とテキスト命令を作成するために、強力な画像生成装置を変更する。
次に、マルチビューポーズ最適化ステップを通じて、メッシュをターゲットイメージに合わせる。
- 参考スコア(独自算出の注目度): 38.75075284385844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a training-free method, Articulate3D, to pose a 3D asset through language control. Despite advances in vision and language models, this task remains surprisingly challenging. To achieve this goal, we decompose the problem into two steps. We modify a powerful image-generator to create target images conditioned on the input image and a text instruction. We then align the mesh to the target images through a multi-view pose optimisation step. In detail, we introduce a self-attention rewiring mechanism (RSActrl) that decouples the source structure from pose within an image generative model, allowing it to maintain a consistent structure across varying poses. We observed that differentiable rendering is an unreliable signal for articulation optimisation; instead, we use keypoints to establish correspondences between input and target images. The effectiveness of Articulate3D is demonstrated across a diverse range of 3D objects and free-form text prompts, successfully manipulating poses while maintaining the original identity of the mesh. Quantitative evaluations and a comparative user study, in which our method was preferred over 85\% of the time, confirm its superiority over existing approaches. Project page:https://odeb1.github.io/articulate3d_page_deb/
- Abstract(参考訳): 本稿では,言語制御による3Dアセットの提示を目的とした,トレーニング不要なArticulate3Dを提案する。
ビジョンと言語モデルの進歩にもかかわらず、このタスクは驚くほど難しいままだ。
この目的を達成するために、問題を2つのステップに分解する。
我々は、入力画像に条件付けされたターゲット画像とテキスト命令を作成するために、強力な画像生成装置を変更する。
次に、マルチビューポーズ最適化ステップを通じて、メッシュをターゲットイメージに合わせる。
本稿では、画像生成モデル内でのポーズからソース構造を分離し、さまざまなポーズにまたがって一貫した構造を維持する自己注意再接続機構(RSActrl)を提案する。
識別可能なレンダリングは調音最適化のための信頼性の低い信号であり,入力画像と対象画像との対応性を確立するためにキーポイントを使用する。
Articulate3Dの有効性は、様々な3Dオブジェクトと自由形式のテキストプロンプトで実証され、メッシュの本来のアイデンティティを維持しながらポーズを操作することに成功した。
提案手法が85%以上好まれる定量的評価と比較ユーザスタディにより,既存手法よりも優位性が確認された。
プロジェクトページ:https://odeb1.github.io/articulate3d_page_deb/
関連論文リスト
- ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - TeMO: Towards Text-Driven 3D Stylization for Multi-Object Meshes [67.5351491691866]
我々は,多目的3Dシーンを解析し,そのスタイルを編集する,TeMOと呼ばれる新しいフレームワークを提案する。
提案手法は,高品質なスタイリングコンテンツを合成し,多目的3Dメッシュで既存手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-12-07T12:10:05Z) - Sculpting Holistic 3D Representation in Contrastive Language-Image-3D Pre-training [51.632418297156605]
コントラスト型言語画像3D事前学習において, ホロリスティックな3D表現を彫刻するMixCon3Dを提案する。
相補的な視点から3次元オブジェクトレベルの表現を開発する。
次に、MixCon3Dは言語3Dのコントラスト学習を行い、現実世界の3Dオブジェクトを包括的に表現し、テキストアライメントを強化する。
論文 参考訳(メタデータ) (2023-11-03T06:05:36Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - Bridging the Domain Gap: Self-Supervised 3D Scene Understanding with
Foundation Models [18.315856283440386]
ファンデーションモデルは、イメージセグメンテーション、オブジェクト検出、視覚言語理解といった2Dおよび言語タスクにおいて顕著な成果を上げている。
3Dシーンの表現学習を豊かにする能力は、ドメインギャップの存在によってほとんど失われる。
そこで我々は,Bridge3Dと呼ばれる斬新な手法を提案し,特徴,セマンティックマスク,基礎モデルからのソースキャプションを用いた3Dモデルの事前学習を行った。
論文 参考訳(メタデータ) (2023-05-15T16:36:56Z) - End-to-End Learning of Multi-category 3D Pose and Shape Estimation [128.881857704338]
本稿では,画像から2次元キーポイントを同時に検出し,それらを3次元に引き上げるエンド・ツー・エンド手法を提案する。
提案手法は2次元キーポイントアノテーションからのみ2次元検出と3次元リフトを学習する。
画像から3D学習へのエンドツーエンド化に加えて,1つのニューラルネットワークを用いて複数のカテゴリからのオブジェクトも処理する。
論文 参考訳(メタデータ) (2021-12-19T17:10:40Z) - Unsupervised Learning of Visual 3D Keypoints for Control [104.92063943162896]
高次元画像からの感覚運動制御ポリシーの学習は、基礎となる視覚表現の品質に大きく依存する。
本稿では,画像から3次元幾何学的構造を直接教師なしで学習するフレームワークを提案する。
これらの発見された3Dキーポイントは、時間と3D空間の両方で一貫した方法で、ロボットの関節と物体の動きを有意義にキャプチャする傾向がある。
論文 参考訳(メタデータ) (2021-06-14T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。