論文の概要: Diff-OP3D: Bridging 2D Diffusion for Open Pose 3D Zero-Shot
Classification
- arxiv url: http://arxiv.org/abs/2312.07039v1
- Date: Tue, 12 Dec 2023 07:52:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 17:14:28.605306
- Title: Diff-OP3D: Bridging 2D Diffusion for Open Pose 3D Zero-Shot
Classification
- Title(参考訳): Diff-OP3D:オープンポーズ3次元ゼロショット分類のためのブリッジング2次元拡散
- Authors: Weiguang Zhao, Guanyu Yang, Chaolong Yang, Chenru Jiang, Yuyao Yan,
Rui Zhang, Kaizhu Huang
- Abstract要約: 我々は3次元オープンなゼロショット分類のためのより挑戦的なベンチマークを提案する。
我々は,1つの理想のポーズを自動的に最適化し,これらのop-3osを分類する,簡潔な角度補正機構を設計する。
このような3次元物体への2次元拡散は、ap-3osとop-3osの両方のゼロショット分類を改善するのに不可欠である。
- 参考スコア(独自算出の注目度): 21.0204719274438
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the explosive 3D data growth, the urgency of utilizing zero-shot
learning to facilitate data labeling becomes evident. Recently, the methods via
transferring Contrastive Language-Image Pre-training (CLIP) to 3D vision have
made great progress in the 3D zero-shot classification task. However, these
methods primarily focus on aligned pose 3D objects (ap-3os), overlooking the
recognition of 3D objects with open poses (op-3os) typically encountered in
real-world scenarios, such as an overturned chair or a lying teddy bear. To
this end, we propose a more challenging benchmark for 3D open-pose zero-shot
classification. Echoing our benchmark, we design a concise angle-refinement
mechanism that automatically optimizes one ideal pose as well as classifies
these op-3os. Furthermore, we make a first attempt to bridge 2D pre-trained
diffusion model as a classifer to 3D zero-shot classification without any
additional training. Such 2D diffusion to 3D objects proves vital in improving
zero-shot classification for both ap-3os and op-3os. Our model notably improves
by 3.5% and 15.8% on ModelNet10$^{\ddag}$ and McGill$^{\ddag}$ open pose
benchmarks, respectively, and surpasses the current state-of-the-art by 6.8% on
the aligned pose ModelNet10, affirming diffusion's efficacy in 3D zero-shot
tasks.
- Abstract(参考訳): 爆発的な3dデータの成長に伴い,ゼロショット学習によるデータラベリングの容易化が急務となっている。
近年,CLIP(Contrastive Language- Image Pre-Training)を3Dビジョンに移行する手法が,ゼロショット分類タスクにおいて大きく進歩している。
しかし、これらの手法は主にアライメントされたポーズの3Dオブジェクト(ap-3os)に焦点を合わせ、転倒した椅子や横たわるテディベアのような現実世界のシナリオでよく見られる3Dオブジェクトの認識(op-3os)を見渡す。
この目的のために,我々は3次元オープンポジゼロショット分類のためのより挑戦的なベンチマークを提案する。
ベンチマークの結果,1つの理想のポーズを自動的に最適化し,これらのOP-3osを分類する,簡潔な角度補正機構を設計した。
さらに, 3次元ゼロショット分類のクラスとして, 2次元事前学習拡散モデルを付加訓練なしで橋渡しする試みも行った。
このような3次元物体への2次元拡散は、ap-3osとop-3osのゼロショット分類を改善する上で不可欠である。
私たちのモデルは、それぞれmodelnet10$^{\ddag}$とmcgill$^{\ddag}$ open poseベンチマークで3.5%と15.8%改善し、アライメントされたposing modelnet10で現在の6.8%を上回り、3dゼロショットタスクにおけるディフュージョンの有効性を肯定する。
関連論文リスト
- Training an Open-Vocabulary Monocular 3D Object Detection Model without 3D Data [57.53523870705433]
我々はOVM3D-Detと呼ばれる新しいオープン語彙単分子オブジェクト検出フレームワークを提案する。
OVM3D-Detは、入力または3Dバウンディングボックスを生成するために高精度のLiDARや3Dセンサーデータを必要としない。
オープンボキャブラリ2Dモデルと擬似LiDARを使用して、RGB画像に3Dオブジェクトを自動的にラベル付けし、オープンボキャブラリ単分子3D検出器の学習を促進する。
論文 参考訳(メタデータ) (2024-11-23T21:37:21Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - Open-CRB: Towards Open World Active Learning for 3D Object Detection [40.80953254074535]
LiDARによる3次元物体検出は,最近,能動学習(AL)によって著しく進歩した。
ストリーミングポイントクラウドが未知または新しいオブジェクトを含む実世界のデプロイメントでは、そのようなオブジェクトをキャプチャする現在のALメソッドが探索されていない。
本稿では,3次元物体検出のためのオープンワールドアクティブラーニング(OWAL-3D)という,より実践的で困難な研究課題について検討する。
論文 参考訳(メタデータ) (2023-10-16T13:32:53Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Learning Occupancy for Monocular 3D Object Detection [25.56336546513198]
モノクローナル3次元検出のための占有度学習法であるtextbfOccupancy M3D を提案する。
フラストムと3D空間の占有を直接学習し、より差別的で情報的な3D特徴や表現をもたらす。
KITTIとオープンデータセットの実験により,提案手法が新たな最先端技術を実現し,他の手法をはるかに上回っていることが示された。
論文 参考訳(メタデータ) (2023-05-25T04:03:46Z) - Weakly Supervised Monocular 3D Object Detection using Multi-View
Projection and Direction Consistency [78.76508318592552]
モノクロ3Dオブジェクト検出は、その容易なアプリケーションのための自動駆動において、主流のアプローチとなっている。
現在のほとんどの方法は、トレーニングフェーズで使用される真実をラベル付けするために、まだ3Dポイントのクラウドデータに依存しています。
画像にマークされた2次元ラベルだけでモデルを訓練できる,弱教師付きモノクル3次元オブジェクト検出法を提案する。
論文 参考訳(メタデータ) (2023-03-15T15:14:00Z) - End-to-End Learning of Multi-category 3D Pose and Shape Estimation [128.881857704338]
本稿では,画像から2次元キーポイントを同時に検出し,それらを3次元に引き上げるエンド・ツー・エンド手法を提案する。
提案手法は2次元キーポイントアノテーションからのみ2次元検出と3次元リフトを学習する。
画像から3D学習へのエンドツーエンド化に加えて,1つのニューラルネットワークを用いて複数のカテゴリからのオブジェクトも処理する。
論文 参考訳(メタデータ) (2021-12-19T17:10:40Z) - FCAF3D: Fully Convolutional Anchor-Free 3D Object Detection [3.330229314824913]
FCAF3D - 完全畳み込み型アンカーフリー屋内3D物体検出法を提案する。
これは、点雲のボクセル表現を使用し、スパース畳み込みでボクセルを処理する、単純で効果的な方法である。
単一の完全な畳み込みフィードフォワードパスを通じて、最小限のランタイムで大規模シーンを処理できる。
論文 参考訳(メタデータ) (2021-12-01T07:28:52Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z) - Weakly Supervised 3D Object Detection from Point Clouds [27.70180601788613]
3Dオブジェクト検出は、特定のクラスに属するオブジェクトの3D境界ボックスを検出し、ローカライズすることを目的としている。
既存の3Dオブジェクト検出器は、トレーニング中にアノテーション付き3Dバウンディングボックスに依存している。
基礎となる真理3D境界ボックスを使わずに点雲からの3Dオブジェクト検出を弱教師付きで行うためのフレームワークであるVS3Dを提案する。
論文 参考訳(メタデータ) (2020-07-28T03:30:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。