論文の概要: Optimizing Multi-Modal Models for Image-Based Shape Retrieval: The Role of Pre-Alignment and Hard Contrastive Learning
- arxiv url: http://arxiv.org/abs/2603.06982v1
- Date: Sat, 07 Mar 2026 01:54:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.518368
- Title: Optimizing Multi-Modal Models for Image-Based Shape Retrieval: The Role of Pre-Alignment and Hard Contrastive Learning
- Title(参考訳): 画像に基づく形状検索のための多モードモデル最適化:事前調整とハードコントラスト学習の役割
- Authors: Paul Julius Kühn, Cedric Spengler, Michael Weinmann, Arjan Kuijper, Saptarshi Neil Sinha,
- Abstract要約: 画像に基づく形状検索(IBSR)は、クエリ画像が与えられたデータベースから3Dモデルを取得することを目的としている。
我々は、大規模マルチモーダル事前訓練を通じてIBSRに対処し、明確なビューベース監視は不要であることを示す。
- 参考スコア(独自算出の注目度): 8.222080530754223
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Image-based shape retrieval (IBSR) aims to retrieve 3D models from a database given a query image, hence addressing a classical task in computer vision, computer graphics, and robotics. Recent approaches typically rely on bridging the domain gap between 2D images and 3D shapes based on the use of multi-view renderings as well as task-specific metric learning to embed shapes and images into a common latent space. In contrast, we address IBSR through large-scale multi-modal pretraining and show that explicit view-based supervision is not required. Inspired by pre-aligned image--point-cloud encoders from ULIP and OpenShape that have been used for tasks such as 3D shape classification, we propose the use of pre-aligned image and shape encoders for zero-shot and standard IBSR by embedding images and point clouds into a shared representation space and performing retrieval via similarity search over compact single-embedding shape descriptors. This formulation allows skipping view synthesis and naturally enables zero-shot and cross-domain retrieval without retraining on the target database. We evaluate pre-aligned encoders in both zero-shot and supervised IBSR settings and additionally introduce a multi-modal hard contrastive loss (HCL) to further increase retrieval performance. Our evaluation demonstrates state-of-the-art performance, outperforming related methods on $Acc_{Top1}$ and $Acc_{Top10}$ for shape retrieval across multiple datasets, with best results observed for OpenShape combined with Point-BERT. Furthermore, training on our proposed multi-modal HCL yields dataset-dependent gains in standard instance retrieval tasks on shape-centric data, underscoring the value of pretraining and hard contrastive learning for 3D shape retrieval. The code will be made available via the project website.
- Abstract(参考訳): 画像ベース形状検索(IBSR)は、クエリ画像が与えられたデータベースから3Dモデルを取得することを目的としており、コンピュータビジョン、コンピュータグラフィックス、ロボット工学における古典的な課題に対処することを目的としている。
近年のアプローチでは、多視点レンダリングとタスク固有のメトリック学習を用いて2次元画像と3次元形状の領域ギャップを埋めることが一般的である。
対照的に、大規模なマルチモーダル事前訓練を通じてIBSRに対処し、明確なビューベース監視は不要であることを示す。
3次元形状分類などのタスクに使用されてきたULIPやOpenShapeのイメージ・ポイント・クラウド・エンコーダに着想を得て,画像とポイント・クラウドを共有表現空間に埋め込んで,コンパクトな単一埋め込み形状記述子による類似検索を行うことにより,ゼロショットおよび標準IBSRのための画像・形状エンコーダを提案する。
この定式化により、スキップビュー合成が可能となり、ターゲットデータベースで再トレーニングすることなく、ゼロショットとクロスドメイン検索が自然に可能となる。
我々は、ゼロショットと教師付きIBSR設定の両方で事前整列エンコーダを評価し、さらに、検索性能を高めるために、マルチモーダルハードコントラッシブロス(HCL)を導入する。
Acc_{Top1}$ および $Acc_{Top10}$ を用いて,OpenShape と Point-BERT を併用した形状検索を行い,その性能評価を行った。
さらに,提案したマルチモーダルHCLのトレーニングにより,形状中心データに基づく標準インスタンス検索タスクのデータセット依存的なゲインが得られ,事前学習の価値と3次元形状検索におけるハードコントラスト学習の意義が強調される。
コードはプロジェクトのWebサイトから入手できる。
関連論文リスト
- OPFormer: Object Pose Estimation leveraging foundation model with geometric encoding [2.1987601456703474]
オブジェクト検出とポーズ推定をシームレスに統合する統合されたエンドツーエンドフレームワークを導入する。
当システムではまずCNOS検出器を用いて対象物体のローカライズを行う。
検出毎に、新しいポーズ推定モジュールOPFormerが正確な6Dポーズを推測する。
論文 参考訳(メタデータ) (2025-11-16T14:19:52Z) - Describe, Adapt and Combine: Empowering CLIP Encoders for Open-set 3D Object Retrieval [76.86914849263168]
オープンセット3Dオブジェクト検索は、トレーニングセットを超えて、目に見えないカテゴリの3Dオブジェクトを検索することを目的とした、新たなタスクである。
既存の手法は通常、すべてのモダリティ(ボクセル、点雲、マルチビュー画像など)を使用し、融合前に特定のバックボーンを訓練する。
Describe, Adapt and Combine (DAC) というフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-29T04:11:05Z) - Revisiting CLIP: Efficient Alignment of 3D MRI and Tabular Data using Domain-Specific Foundation Models [2.0749231618270803]
画像エンコーダとして、ドメイン固有の3D基盤モデルをトレーニングすることで、CLIPスタイルのアライメントを再考する。
本手法は,3次元のトレーニングに必要な簡易な埋め込み蓄積戦略によって実現されている。
論文 参考訳(メタデータ) (2025-01-23T19:34:48Z) - Anyview: Generalizable Indoor 3D Object Detection with Variable Frames [60.48134767838629]
我々は,AnyViewという新しい3D検出フレームワークを実用化するために提案する。
本手法は, 単純かつクリーンなアーキテクチャを用いて, 高い一般化性と高い検出精度を実現する。
論文 参考訳(メタデータ) (2023-10-09T02:15:45Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Monocular 3D Detection with Geometric Constraints Embedding and
Semi-supervised Training [3.8073142980733]
我々は,KM3D-Netと呼ばれる,RGB画像のみを用いたモノクル3Dオブジェクト検出のための新しいフレームワークを提案する。
我々は、対象のキーポイント、次元、方向を予測するための完全な畳み込みモデルを設計し、これらの推定を視点幾何学的制約と組み合わせて位置属性を計算する。
論文 参考訳(メタデータ) (2020-09-02T00:51:51Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z) - Object Detection on Single Monocular Images through Canonical
Correlation Analysis [3.4722706398428493]
点雲や深度画像のような余分な3次元データを用いることなく、単分子画像から3次元オブジェクト情報を検索する。
本稿では,単眼画像とそれに対応する深度画像とを融合する2次元CCAフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-13T05:03:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。