論文の概要: Zero-Shot Multi-Modal Artist-Controlled Retrieval and Exploration of 3D
Object Sets
- arxiv url: http://arxiv.org/abs/2209.00682v1
- Date: Thu, 1 Sep 2022 18:36:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-05 11:57:45.676208
- Title: Zero-Shot Multi-Modal Artist-Controlled Retrieval and Exploration of 3D
Object Sets
- Title(参考訳): ゼロショット多モードアーティスト検索と3次元オブジェクト集合の探索
- Authors: Kristofer Schlachter, Benjamin Ahlbrand, Zhu Wang, Valerio Ortenzi,
Ken Perlin
- Abstract要約: マルチモーダル入力から2Dスケッチ、画像、テキストを含む高品質な3Dアセット検索。
高いレベルの潜在機能へのブリッジを提供するために、CLIPを使用します。
これらの特徴は、一般的なデータ駆動アプローチに影響を与える芸術的制御の欠如に対処するために、マルチモーダリティ・フュージョン(multi-modality fusion)を実行するために使用します。
- 参考スコア(独自算出の注目度): 4.2880616924515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When creating 3D content, highly specialized skills are generally needed to
design and generate models of objects and other assets by hand. We address this
problem through high-quality 3D asset retrieval from multi-modal inputs,
including 2D sketches, images and text. We use CLIP as it provides a bridge to
higher-level latent features. We use these features to perform a multi-modality
fusion to address the lack of artistic control that affects common data-driven
approaches. Our approach allows for multi-modal conditional feature-driven
retrieval through a 3D asset database, by utilizing a combination of input
latent embeddings. We explore the effects of different combinations of feature
embeddings across different input types and weighting methods.
- Abstract(参考訳): 3dコンテンツを作成する場合、オブジェクトやその他の資産のモデルを手作業で設計・生成するには、高度に専門的なスキルが必要となる。
2次元スケッチや画像,テキストなど,マルチモーダル入力からの高品質な3dアセット検索によってこの問題に対処した。
高いレベルの潜在機能へのブリッジを提供するために、CLIPを使用します。
これらの機能をマルチモダリティ融合(multi-modality fusion)に使用して、一般的なデータ駆動アプローチに影響を与える芸術的コントロールの欠如に対処する。
提案手法は,入力潜伏埋め込みの組み合わせを利用して,3Dアセットデータベースによるマルチモーダル条件付き特徴駆動検索を可能にする。
様々な入力タイプと重み付けメソッドにまたがる特徴埋め込みの異なる組み合わせの効果について検討する。
関連論文リスト
- PoIFusion: Multi-Modal 3D Object Detection via Fusion at Points of Interest [65.48057241587398]
PoIFusionは興味のある時点でRGB画像とLiDAR点雲の情報を融合する(略してPoI)
本手法は、ビュー変換による情報損失を防止し、計算集約的なグローバルな注意をなくす。
注目すべきは、私たちのPoIFusionは74.9%のNDSと73.4%のmAPを獲得し、マルチモーダルな3Dオブジェクト検出ベンチマークで最先端の記録を樹立したことです。
論文 参考訳(メタデータ) (2024-03-14T09:28:12Z) - SCA-PVNet: Self-and-Cross Attention Based Aggregation of Point Cloud and
Multi-View for 3D Object Retrieval [8.74845857766369]
大規模データセットを用いた多モード3Dオブジェクト検索はめったに行われない。
本稿では,3次元オブジェクト検索のための点群と多視点画像の自己・横断的アグリゲーションを提案する。
論文 参考訳(メタデータ) (2023-07-20T05:46:32Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - UniG3D: A Unified 3D Object Generation Dataset [75.49544172927749]
UniG3Dは、ShapeNetデータセット上に普遍的なデータ変換パイプラインを用いて構築された、統一された3Dオブジェクト生成データセットである。
このパイプラインは、各生の3Dモデルを包括的なマルチモーダルデータ表現に変換する。
データセットのデータソースの選択は、そのスケールと品質に基づいています。
論文 参考訳(メタデータ) (2023-06-19T07:03:45Z) - SDFusion: Multimodal 3D Shape Completion, Reconstruction, and Generation [89.47132156950194]
本稿では,アマチュアユーザのための3Dアセット生成を簡易化する新しいフレームワークを提案する。
提案手法は,人間によって容易に提供可能な様々な入力モダリティをサポートする。
私たちのモデルは、これらのタスクをひとつのSwiss-army-knifeツールにまとめることができます。
論文 参考訳(メタデータ) (2022-12-08T18:59:05Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - Multimodal Semi-Supervised Learning for 3D Objects [19.409295848915388]
本稿では,3次元の分類処理と検索処理の両方において,異なる3次元データのモデルのコヒーレンスを用いてデータ効率を向上させる方法について検討する。
本稿では、インスタンスレベルの一貫性制約を導入し、新しいマルチモーダル・コントラッシブ・プロトタイプ(M2CP)の損失を減らし、新しいマルチモーダル・セミ教師付き学習フレームワークを提案する。
提案するフレームワークは,モデルNet10およびモデルNet40データセットにおいて,分類タスクと検索タスクの両方において,最先端のすべての処理性能を大幅に上回っている。
論文 参考訳(メタデータ) (2021-10-22T05:33:16Z) - 3D-MAN: 3D Multi-frame Attention Network for Object Detection [22.291051951077485]
3D-MANは、複数の視点から効果的に機能を集約する3Dマルチフレームアテンションネットワークです。
3D-MANは, 単フレームおよび複数フレームの手法と比較して, 最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-30T03:44:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。