論文の概要: Towards Training-Free Open-World Classification with 3D Generative Models
- arxiv url: http://arxiv.org/abs/2501.17547v1
- Date: Wed, 29 Jan 2025 10:32:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-30 15:53:59.482860
- Title: Towards Training-Free Open-World Classification with 3D Generative Models
- Title(参考訳): 3次元生成モデルを用いた学習自由なオープンワールド分類を目指して
- Authors: Xinzhe Xia, Weiguang Zhao, Yuyao Yan, Guanyu Yang, Rui Zhang, Kaizhu Huang, Xi Yang,
- Abstract要約: 我々は3次元オープンワールド分類のための3次元生成モデルの先駆的な探索を行っている。
また、回転不変の特徴抽出器を製作する。
この革新的なシナジーは、トレーニングなし、オープンカテゴリ、ポーズ不変の利点を、私たちのパイプラインに与えます。
- 参考スコア(独自算出の注目度): 21.81198287162629
- License:
- Abstract: 3D open-world classification is a challenging yet essential task in dynamic and unstructured real-world scenarios, requiring both open-category and open-pose recognition. To address these challenges, recent wisdom often takes sophisticated 2D pre-trained models to provide enriched and stable representations. However, these methods largely rely on how 3D objects can be projected into 2D space, which is unfortunately not well solved, and thus significantly limits their performance. Unlike these present efforts, in this paper we make a pioneering exploration of 3D generative models for 3D open-world classification. Drawing on abundant prior knowledge from 3D generative models, we additionally craft a rotation-invariant feature extractor. This innovative synergy endows our pipeline with the advantages of being training-free, open-category, and pose-invariant, thus well suited to 3D open-world classification. Extensive experiments on benchmark datasets demonstrate the potential of generative models in 3D open-world classification, achieving state-of-the-art performance on ModelNet10 and McGill with 32.0% and 8.7% overall accuracy improvement, respectively.
- Abstract(参考訳): 3Dのオープンワールド分類は、動的かつ非構造化の現実世界シナリオにおいて困難だが必須の課題であり、オープンカテゴリとオープンな場所認識の両方を必要とする。
これらの課題に対処するために、最近の知恵は、豊かで安定した表現を提供するために、洗練された2D事前訓練モデルを使うことが多い。
しかし、これらの手法は3Dオブジェクトを2D空間に投影する方法に大きく依存している。
本稿では,これらの試みと異なり,3次元オープンワールド分類のための3次元生成モデルの先駆的な探索を行う。
3次元生成モデルからの豊富な事前知識に基づき、回転不変特徴抽出器を製作する。
この革新的なシナジーは、トレーニングなし、オープンカテゴリ、ポーズ不変の利点によって私たちのパイプラインを支えており、3Dオープンワールドの分類に非常に適しています。
ベンチマークデータセットの大規模な実験は、3Dオープンワールド分類における生成モデルの可能性を示し、それぞれ32.0%と8.7%の精度でModelNet10とMcGillの最先端のパフォーマンスを達成した。
関連論文リスト
- TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models [69.0220314849478]
TripoSGは入力画像に正確に対応して高忠実度3Dメッシュを生成することができる新しいパラダイムである。
結果として得られた3D形状は、高解像度の能力によって細部を拡大し、入力した現在年齢に対して例外的な忠実さを示す。
3Dジェネレーションの分野における進歩と革新を促進するため、我々はモデルを一般公開する。
論文 参考訳(メタデータ) (2025-02-10T16:07:54Z) - GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency [50.11520458252128]
既存の3Dアベイランス学習手法は、注釈付きデータに制限があるため、一般化と堅牢性に苦慮している。
本稿では,大規模事前学習型2Dモデルを活用することで,3次元アベイランス学習の一般化と堅牢性を高めるための新しいフレームワークであるGEALを提案する。
GEALは、既存のメソッドと、新しいオブジェクトカテゴリ、および破損したデータにおいて、一貫して優れています。
論文 参考訳(メタデータ) (2024-12-12T17:59:03Z) - Large-Vocabulary 3D Diffusion Model with Transformer [57.076986347047]
本稿では,1つの生成モデルを用いて実世界の3Dオブジェクトの大規模カテゴリを合成するための拡散型フィードフォワードフレームワークを提案する。
本稿では,三面体を用いた3次元拡散モデル(TransFormer, DiffTF)を提案する。
ShapeNetとOmniObject3Dの実験は、単一のDiffTFモデルが最先端の大語彙3Dオブジェクト生成性能を達成することを確実に実証している。
論文 参考訳(メタデータ) (2023-09-14T17:59:53Z) - 3D Neural Field Generation using Triplane Diffusion [37.46688195622667]
ニューラルネットワークの3次元認識のための効率的な拡散ベースモデルを提案する。
当社のアプローチでは,ShapeNetメッシュなどのトレーニングデータを,連続的占有フィールドに変換することによって前処理する。
本論文では,ShapeNetのオブジェクトクラスにおける3D生成の現状について述べる。
論文 参考訳(メタデータ) (2022-11-30T01:55:52Z) - Deep Generative Models on 3D Representations: A Survey [81.73385191402419]
生成モデルは、新しいインスタンスを生成することによって観測データの分布を学習することを目的としている。
最近、研究者は焦点を2Dから3Dにシフトし始めた。
3Dデータの表現は、非常に大きな課題をもたらします。
論文 参考訳(メタデータ) (2022-10-27T17:59:50Z) - Spatio-temporal Self-Supervised Representation Learning for 3D Point
Clouds [96.9027094562957]
ラベルのないタスクから学習できる時間的表現学習フレームワークを導入する。
幼児が野生の視覚的データからどのように学ぶかに触発され、3Dデータから派生した豊かな手がかりを探索する。
STRLは3Dポイントクラウドシーケンスから2つの時間的関連フレームを入力として、空間データ拡張で変換し、不変表現を自己指導的に学習する。
論文 参考訳(メタデータ) (2021-09-01T04:17:11Z) - Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D
Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。
既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。
結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文 参考訳(メタデータ) (2020-04-07T20:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。