論文の概要: Zero-Shot Multi-Modal Artist-Controlled Retrieval and Exploration of 3D
Object Sets
- arxiv url: http://arxiv.org/abs/2209.00682v1
- Date: Thu, 1 Sep 2022 18:36:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-05 11:57:45.676208
- Title: Zero-Shot Multi-Modal Artist-Controlled Retrieval and Exploration of 3D
Object Sets
- Title(参考訳): ゼロショット多モードアーティスト検索と3次元オブジェクト集合の探索
- Authors: Kristofer Schlachter, Benjamin Ahlbrand, Zhu Wang, Valerio Ortenzi,
Ken Perlin
- Abstract要約: マルチモーダル入力から2Dスケッチ、画像、テキストを含む高品質な3Dアセット検索。
高いレベルの潜在機能へのブリッジを提供するために、CLIPを使用します。
これらの特徴は、一般的なデータ駆動アプローチに影響を与える芸術的制御の欠如に対処するために、マルチモーダリティ・フュージョン(multi-modality fusion)を実行するために使用します。
- 参考スコア(独自算出の注目度): 4.2880616924515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When creating 3D content, highly specialized skills are generally needed to
design and generate models of objects and other assets by hand. We address this
problem through high-quality 3D asset retrieval from multi-modal inputs,
including 2D sketches, images and text. We use CLIP as it provides a bridge to
higher-level latent features. We use these features to perform a multi-modality
fusion to address the lack of artistic control that affects common data-driven
approaches. Our approach allows for multi-modal conditional feature-driven
retrieval through a 3D asset database, by utilizing a combination of input
latent embeddings. We explore the effects of different combinations of feature
embeddings across different input types and weighting methods.
- Abstract(参考訳): 3dコンテンツを作成する場合、オブジェクトやその他の資産のモデルを手作業で設計・生成するには、高度に専門的なスキルが必要となる。
2次元スケッチや画像,テキストなど,マルチモーダル入力からの高品質な3dアセット検索によってこの問題に対処した。
高いレベルの潜在機能へのブリッジを提供するために、CLIPを使用します。
これらの機能をマルチモダリティ融合(multi-modality fusion)に使用して、一般的なデータ駆動アプローチに影響を与える芸術的コントロールの欠如に対処する。
提案手法は,入力潜伏埋め込みの組み合わせを利用して,3Dアセットデータベースによるマルチモーダル条件付き特徴駆動検索を可能にする。
様々な入力タイプと重み付けメソッドにまたがる特徴埋め込みの異なる組み合わせの効果について検討する。
関連論文リスト
- SDFusion: Multimodal 3D Shape Completion, Reconstruction, and Generation [89.47132156950194]
本稿では,アマチュアユーザのための3Dアセット生成を簡易化する新しいフレームワークを提案する。
提案手法は,人間によって容易に提供可能な様々な入力モダリティをサポートする。
私たちのモデルは、これらのタスクをひとつのSwiss-army-knifeツールにまとめることができます。
論文 参考訳(メタデータ) (2022-12-08T18:59:05Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - Unifying Voxel-based Representation with Transformer for 3D Object
Detection [143.91910747605107]
マルチモード3Dオブジェクト検出のための統一フレームワークUVTRを提案する。
提案手法は, ボクセル空間におけるマルチモーダリティ表現を統一し, 高精度かつ堅牢な単一モード・クロスモーダリティ3D検出を実現することを目的とする。
UVTRは、69.7%、55.1%、71.1%のNDSで、それぞれLiDAR、カメラ、マルチモダリティの入力を行う。
論文 参考訳(メタデータ) (2022-06-01T17:02:40Z) - Multimodal Semi-Supervised Learning for 3D Objects [19.409295848915388]
本稿では,3次元の分類処理と検索処理の両方において,異なる3次元データのモデルのコヒーレンスを用いてデータ効率を向上させる方法について検討する。
本稿では、インスタンスレベルの一貫性制約を導入し、新しいマルチモーダル・コントラッシブ・プロトタイプ(M2CP)の損失を減らし、新しいマルチモーダル・セミ教師付き学習フレームワークを提案する。
提案するフレームワークは,モデルNet10およびモデルNet40データセットにおいて,分類タスクと検索タスクの両方において,最先端のすべての処理性能を大幅に上回っている。
論文 参考訳(メタデータ) (2021-10-22T05:33:16Z) - DeepMultiCap: Performance Capture of Multiple Characters Using Sparse
Multiview Cameras [63.186486240525554]
deep multicapは、スパースマルチビューカメラを用いたマルチパーソンパフォーマンスキャプチャのための新しい手法である。
本手法では,事前走査型テンプレートモデルを用いることなく,時間変化した表面の詳細をキャプチャできる。
論文 参考訳(メタデータ) (2021-05-01T14:32:13Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - 3D-MAN: 3D Multi-frame Attention Network for Object Detection [22.291051951077485]
3D-MANは、複数の視点から効果的に機能を集約する3Dマルチフレームアテンションネットワークです。
3D-MANは, 単フレームおよび複数フレームの手法と比較して, 最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-30T03:44:22Z) - MANet: Multimodal Attention Network based Point- View fusion for 3D
Shape Recognition [0.5371337604556311]
本稿では3次元形状認識のためのマルチモーダルアテンション機構に基づく融合ネットワークを提案する。
マルチビューデータの制限を考慮すると,グローバルなポイントクラウド機能を用いてマルチビュー機能をフィルタリングするソフトアテンション方式を導入する。
より具体的には、各マルチビュー画像の全体形状認識への寄与をマイニングすることにより、拡張されたマルチビュー特徴を得る。
論文 参考訳(メタデータ) (2020-02-28T07:00:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。