論文の概要: OpenShape: Scaling Up 3D Shape Representation Towards Open-World
Understanding
- arxiv url: http://arxiv.org/abs/2305.10764v1
- Date: Thu, 18 May 2023 07:07:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 16:34:16.228322
- Title: OpenShape: Scaling Up 3D Shape Representation Towards Open-World
Understanding
- Title(参考訳): OpenShape: オープンワールド理解に向けた3D形状表現のスケールアップ
- Authors: Minghua Liu, Ruoxi Shi, Kaiming Kuang, Yinhao Zhu, Xuanlin Li,
Shizhong Han, Hong Cai, Fatih Porikli, Hao Su
- Abstract要約: 我々は,テキスト,画像,点雲のマルチモーダルな共同表現を学習するOpenShapeを紹介する。
複数の3Dデータセットをアンサンブルすることで、トレーニングデータをスケールアップし、ノイズの多いテキスト記述を自動的にフィルタリングし、強化するためのいくつかの戦略を提案する。
ゼロショット3D分類ベンチマークでOpenShapeを評価し,オープンワールド認識の優れた能力を実証した。
- 参考スコア(独自算出の注目度): 53.21204584976076
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce OpenShape, a method for learning multi-modal joint
representations of text, image, and point clouds. We adopt the commonly used
multi-modal contrastive learning framework for representation alignment, but
with a specific focus on scaling up 3D representations to enable open-world 3D
shape understanding. To achieve this, we scale up training data by ensembling
multiple 3D datasets and propose several strategies to automatically filter and
enrich noisy text descriptions. We also explore and compare strategies for
scaling 3D backbone networks and introduce a novel hard negative mining module
for more efficient training. We evaluate OpenShape on zero-shot 3D
classification benchmarks and demonstrate its superior capabilities for
open-world recognition. Specifically, OpenShape achieves a zero-shot accuracy
of 46.8% on the 1,156-category Objaverse-LVIS benchmark, compared to less than
10% for existing methods. OpenShape also achieves an accuracy of 85.3% on
ModelNet40, outperforming previous zero-shot baseline methods by 20% and
performing on par with some fully-supervised methods. Furthermore, we show that
our learned embeddings encode a wide range of visual and semantic concepts
(e.g., subcategories, color, shape, style) and facilitate fine-grained text-3D
and image-3D interactions. Due to their alignment with CLIP embeddings, our
learned shape representations can also be integrated with off-the-shelf
CLIP-based models for various applications, such as point cloud captioning and
point cloud-conditioned image generation.
- Abstract(参考訳): 本稿では,テキスト,画像,ポイントクラウドのマルチモーダルジョイント表現を学習する手法であるopenshapeを提案する。
表現アライメントによく使われるマルチモーダルコントラスト学習フレームワークを採用するが,オープンワールドの3d形状理解を実現するために,特に3d表現のスケールアップに重点を置いている。
これを実現するために,複数の3dデータセットをセンセンシングしてトレーニングデータをスケールアップし,ノイズの多いテキスト記述を自動的にフィルタリングし,強化するためのいくつかの戦略を提案する。
また、3Dバックボーンネットワークのスケーリング戦略を探求し比較し、より効率的なトレーニングのための新しいハードネガティブマイニングモジュールを導入する。
ゼロショット3d分類ベンチマークでopenshapeを評価し,その優れたオープンワールド認識能力を示す。
具体的には、OpenShapeは既存の手法に比べて1,156カテゴリのObjaverse-LVISベンチマークで46.8%のゼロショット精度を達成した。
OpenShapeはまた、ModelNet40で85.3%の精度を達成し、以前のゼロショットベースラインメソッドを20%上回り、完全に教師されたメソッドと同等に実行する。
さらに、学習した埋め込みは、視覚的および意味的概念(例えば、サブカテゴリ、色、形状、スタイル)をエンコードし、きめ細かいテキスト3dおよび画像3dインタラクションを容易にする。
CLIP埋め込みとの整合性のため、学習した形状表現は、ポイントクラウドキャプションやポイントクラウド条件の画像生成など、さまざまなアプリケーションのための既製のCLIPベースのモデルと統合することもできる。
関連論文リスト
- OpenDlign: Open-World Point Cloud Understanding with Depth-Aligned Images [17.344430840048094]
マルチモーダルアライメントのための奥行き整合画像を用いたオープンワールド3DモデルOpenDlignを提案する。
OpenDlignは、600万のパラメータを微調整するだけで、多様な3Dタスクで高いゼロショットと少数ショットのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-25T11:53:36Z) - Cross-Modal Self-Training: Aligning Images and Pointclouds to Learn Classification without Labels [69.55622471172941]
CLIPのような大規模ビジョン2D視覚言語モデルは、一般化可能な(オープン語彙)3D視覚モデルを学ぶために3Dエンコーダと整列することができる。
ゼロショット3Dビジョンモデルのラベルなし分類性能を改善するために、クロスモーダル自己訓練(Cross-MoST: Cross-Modal Self-Training)を提案する。
論文 参考訳(メタデータ) (2024-04-15T21:30:50Z) - TAMM: TriAdapter Multi-Modal Learning for 3D Shape Understanding [28.112402580426174]
TriAdapter Multi-Modal Learning (TAMM)は3つの相乗的アダプタに基づく新しい2段階学習手法である。
TAMMは、広範囲の3Dエンコーダアーキテクチャ、事前トレーニングデータセット、下流タスクの3D表現を一貫して強化する。
論文 参考訳(メタデータ) (2024-02-28T17:18:38Z) - MV-CLIP: Multi-View CLIP for Zero-shot 3D Shape Recognition [49.52436478739151]
大規模な事前訓練モデルでは、オープンワールドシナリオにおける視覚と言語タスクのパフォーマンスが著しく向上している。
近年の手法では、ゼロショット3次元形状認識を実現するために、言語画像事前学習を採用している。
本稿では、ビュー選択と階層的プロンプトによる信頼性の向上を目的とする。
論文 参考訳(メタデータ) (2023-11-30T09:51:53Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - ULIP: Learning a Unified Representation of Language, Images, and Point
Clouds for 3D Understanding [110.07170245531464]
現在の3Dモデルは、注釈付きデータの少ないデータセットと、事前に定義されたカテゴリセットによって制限されている。
近年の進歩は、言語などの他のモダリティからの知識を活用することで、同様の問題を著しく軽減できることを示している。
画像,テキスト,3次元点雲の統一表現は,3つのモードからオブジェクト三重項を事前学習することで学習する。
論文 参考訳(メタデータ) (2022-12-10T01:34:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。