論文の概要: CLIPtortionist: Zero-shot Text-driven Deformation for Manufactured 3D Shapes
- arxiv url: http://arxiv.org/abs/2410.15199v1
- Date: Sat, 19 Oct 2024 20:11:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:16:57.146575
- Title: CLIPtortionist: Zero-shot Text-driven Deformation for Manufactured 3D Shapes
- Title(参考訳): CLIPtortionist: ゼロショットによる3次元形状のテキスト駆動変形
- Authors: Xianghao Xu, Srinath Sridhar, Daniel Ritchie,
- Abstract要約: 本稿では, 製造対象の入力3Dメッシュを変形させて, 入力テキスト記述に適合するゼロショットテキスト駆動型3D形状変形システムを提案する。
また,CLIPをベースとした目的関数は,多くの局所最適値を示し,その回避のためにBoxDefGraphと呼ばれる新しい変形モデルを用いて変形をパラメータ化する。
- 参考スコア(独自算出の注目度): 15.985339563442189
- License:
- Abstract: We propose a zero-shot text-driven 3D shape deformation system that deforms an input 3D mesh of a manufactured object to fit an input text description. To do this, our system optimizes the parameters of a deformation model to maximize an objective function based on the widely used pre-trained vision language model CLIP. We find that CLIP-based objective functions exhibit many spurious local optima; to circumvent them, we parameterize deformations using a novel deformation model called BoxDefGraph which our system automatically computes from an input mesh, the BoxDefGraph is designed to capture the object aligned rectangular/circular geometry features of most manufactured objects. We then use the CMA-ES global optimization algorithm to maximize our objective, which we find to work better than popular gradient-based optimizers. We demonstrate that our approach produces appealing results and outperforms several baselines.
- Abstract(参考訳): 本稿では, 製造対象の入力3Dメッシュを変形させて, 入力テキスト記述に適合するゼロショットテキスト駆動型3D形状変形システムを提案する。
そこで本システムは,広く使用されている視覚言語モデルCLIPに基づいて,変形モデルのパラメータを最適化し,目的関数を最大化する。
我々は,CLIPをベースとした目的関数が多くの局所最適値を示し,その回避のために,我々のシステムは入力メッシュから自動的に計算するBoxDefGraphと呼ばれる新しい変形モデルを用いて変形をパラメータ化する。
次に、CMA-ESグローバル最適化アルゴリズムを用いて目的を最大化する。
我々は,本手法が魅力的な結果をもたらし,いくつかのベースラインを上回ることを実証した。
関連論文リスト
- Bayesian Mesh Optimization for Graph Neural Networks to Enhance Engineering Performance Prediction [1.6574413179773761]
工学設計において、サロゲートモデルは計算コストのかかるシミュレーションを置き換えるために広く使われている。
本稿では3次元ディープラーニングに基づく代理モデルのためのベイズグラフニューラルネットワーク(GNN)フレームワークを提案する。
我々のフレームワークはベイズ最適化によってメッシュ要素の最適サイズを決定し、その結果、高精度なサロゲートモデルが得られる。
論文 参考訳(メタデータ) (2024-06-04T06:27:48Z) - Semantic Object-level Modeling for Robust Visual Camera Relocalization [14.998133272060695]
本稿では,オブジェクトの楕円形表現のためのオブジェクトレベルの自動ボクセルモデリング手法を提案する。
これらのモジュールはすべて、視覚的SLAMシステムに完全に介在している。
論文 参考訳(メタデータ) (2024-02-10T13:39:44Z) - Robust 3D Tracking with Quality-Aware Shape Completion [67.9748164949519]
そこで本研究では,高密度および完全点の雲からなる合成対象表現について,ロバストな3次元追跡のための形状完備化により正確に表現する。
具体的には, 形状が整ったボキセル化3次元追跡フレームワークを設計し, ノイズのある歴史的予測の悪影響を軽減するために, 品質に配慮した形状完備化機構を提案する。
論文 参考訳(メタデータ) (2023-12-17T04:50:24Z) - Semantify: Simplifying the Control of 3D Morphable Models using CLIP [16.74483439465574]
Semantify: CLIP言語ビジョン基盤モデルのセマンティックパワーを利用する自己教師型手法。
身体形状モデル,顔形状モデル,表情モデル,動物形状モデルなど,多数の3DMMの結果を提示する。
論文 参考訳(メタデータ) (2023-08-14T19:07:26Z) - Pixel2Mesh++: 3D Mesh Generation and Refinement from Multi-View Images [82.32776379815712]
カメラポーズの有無にかかわらず、少数のカラー画像から3次元メッシュ表現における形状生成の問題について検討する。
我々は,グラフ畳み込みネットワークを用いたクロスビュー情報を活用することにより,形状品質をさらに向上する。
我々のモデルは初期メッシュの品質とカメラポーズの誤差に頑健であり、テスト時間最適化のための微分関数と組み合わせることができる。
論文 参考訳(メタデータ) (2022-04-21T03:42:31Z) - RBGNet: Ray-based Grouping for 3D Object Detection [104.98776095895641]
本稿では,点雲からの正確な3次元物体検出のための投票型3次元検出器RBGNetフレームワークを提案する。
決定された光線群を用いて物体表面上の点方向の特徴を集約する。
ScanNet V2 と SUN RGB-D による最先端の3D 検出性能を実現する。
論文 参考訳(メタデータ) (2022-04-05T14:42:57Z) - Text to Mesh Without 3D Supervision Using Limit Subdivision [13.358081015190255]
本稿では,ターゲットテキストプロンプトのみを用いた3次元モデルのゼロショット生成手法を提案する。
入力テキストプロンプトを3Dモデルの異なるレンダリング画像と比較する、事前訓練されたCLIPモデルに依存しています。
論文 参考訳(メタデータ) (2022-03-24T20:36:28Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - InfoFocus: 3D Object Detection for Autonomous Driving with Dynamic
Information Modeling [65.47126868838836]
動的情報モデリングを用いた新しい3次元オブジェクト検出フレームワークを提案する。
粗い予測は、ボクセルベースの領域提案ネットワークを介して第1段階で生成される。
大規模なnuScenes 3D検出ベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-07-16T18:27:08Z) - Dense Non-Rigid Structure from Motion: A Manifold Viewpoint [162.88686222340962]
Non-Rigid Structure-from-Motion (NRSfM) 問題は、複数のフレームにまたがる2次元特徴対応から変形物体の3次元形状を復元することを目的としている。
提案手法は,ノイズに対する精度,スケーラビリティ,堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2020-06-15T09:15:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。