論文の概要: Enhanced Cross-modal 3D Retrieval via Tri-modal Reconstruction
- arxiv url: http://arxiv.org/abs/2504.01476v1
- Date: Wed, 02 Apr 2025 08:29:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:21:32.810798
- Title: Enhanced Cross-modal 3D Retrieval via Tri-modal Reconstruction
- Title(参考訳): トリモーダル再構成によるクロスモーダル3次元検索の強化
- Authors: Junlong Ren, Hao Wang,
- Abstract要約: クロスモーダルな3D検索は重要な課題であり、3Dとテキストのモダリティ間の双方向検索の実現を目指している。
マルチビュー画像と点雲を併用して3次元形状を共同で表現し,3次元アライメントを容易にすることを提案する。
本手法は, テキスト検索とテキスト検索の両方において, 従来の最先端手法よりも優れていた。
- 参考スコア(独自算出の注目度): 4.820576346277399
- License:
- Abstract: Cross-modal 3D retrieval is a critical yet challenging task, aiming to achieve bi-directional retrieval between 3D and text modalities. Current methods predominantly rely on a certain 3D representation (e.g., point cloud), with few exploiting the 2D-3D consistency and complementary relationships, which constrains their performance. To bridge this gap, we propose to adopt multi-view images and point clouds to jointly represent 3D shapes, facilitating tri-modal alignment (i.e., image, point, text) for enhanced cross-modal 3D retrieval. Notably, we introduce tri-modal reconstruction to improve the generalization ability of encoders. Given point features, we reconstruct image features under the guidance of text features, and vice versa. With well-aligned point cloud and multi-view image features, we aggregate them as multimodal embeddings through fine-grained 2D-3D fusion to enhance geometric and semantic understanding. Recognizing the significant noise in current datasets where many 3D shapes and texts share similar semantics, we employ hard negative contrastive training to emphasize harder negatives with greater significance, leading to robust discriminative embeddings. Extensive experiments on the Text2Shape dataset demonstrate that our method significantly outperforms previous state-of-the-art methods in both shape-to-text and text-to-shape retrieval tasks by a substantial margin.
- Abstract(参考訳): クロスモーダルな3D検索は重要な課題であり、3Dとテキストのモダリティ間の双方向検索の実現を目指している。
現在の手法は、主に特定の3D表現(例えば、ポイントクラウド)に依存しており、2D-3Dの一貫性と相補的な関係を利用して、パフォーマンスを制限しているものはほとんどない。
このギャップを埋めるために,多視点画像と点雲を併用して3次元形状を表現することを提案する。
特に、エンコーダの一般化能力を向上させるために、トリモーダル再構成を導入する。
点特徴が与えられた場合、テキスト特徴の指導の下で画像特徴を再構成し、その逆を補正する。
適切に整合した点雲と多視点画像特徴により、幾何的および意味的理解を高めるために、細粒度の2D-3D融合により、それらをマルチモーダル埋め込みとして集約する。
多数の3次元形状やテキストが類似したセマンティクスを共有する現在のデータセットにおいて、重要なノイズを認識するため、我々は強硬な否定性を強調するために強硬なネガティブなトレーニングを実践し、堅牢な識別的埋め込みをもたらす。
Text2Shapeデータセットの大規模な実験により,本手法は従来手法に比べて,形状・テキスト・テキスト・形状検索とテキスト・形状検索の双方において有意に優れていたことがわかった。
関連論文リスト
- Multi-modal Relation Distillation for Unified 3D Representation Learning [30.942281325891226]
マルチモーダルリレーショナル蒸留(Multi-modal Relation Distillation、MRD)は、3次元バックボーンに再生可能な大型ビジョンランゲージモデル(VLM)を蒸留するために設計された3次元事前学習フレームワークである。
MRDは、各モダリティ内の関係と異なるモダリティ間の相互関係をキャプチャし、より差別的な3D形状表現を作り出すことを目的としている。
論文 参考訳(メタデータ) (2024-07-19T03:43:48Z) - COM3D: Leveraging Cross-View Correspondence and Cross-Modal Mining for 3D Retrieval [21.070154402838906]
本稿では,クロスビュー対応とクロスモーダルマイニングを活用して検索性能を向上させるCOM3Dを提案する。
特に、シーン表現変換器によって3次元特徴を増強し、3次元形状のクロスビュー対応特徴を生成する。
さらに,セミハードな負のサンプルマイニング法に基づいて,クロスモーダルマッチングプロセスの最適化を提案する。
論文 参考訳(メタデータ) (2024-05-07T08:16:13Z) - Grounded Compositional and Diverse Text-to-3D with Pretrained Multi-View Diffusion Model [65.58911408026748]
複雑な合成文のプロンプトを正確に追従できる3Dアセットを生成するために,グラウンドド・ドレーマーを提案する。
まず,テキスト・ツー・3Dパイプラインのボトルネックとして,テキスト誘導4視点画像の活用を提唱する。
次に,テキストアラインな4ビュー画像生成を促すための注意再焦点機構を導入する。
論文 参考訳(メタデータ) (2024-04-28T04:05:10Z) - TAMM: TriAdapter Multi-Modal Learning for 3D Shape Understanding [28.112402580426174]
TriAdapter Multi-Modal Learning (TAMM)は3つの相乗的アダプタに基づく新しい2段階学習手法である。
TAMMは、広範囲の3Dエンコーダアーキテクチャ、事前トレーニングデータセット、下流タスクの3D表現を一貫して強化する。
論文 参考訳(メタデータ) (2024-02-28T17:18:38Z) - Sculpting Holistic 3D Representation in Contrastive Language-Image-3D Pre-training [51.632418297156605]
コントラスト型言語画像3D事前学習において, ホロリスティックな3D表現を彫刻するMixCon3Dを提案する。
相補的な視点から3次元オブジェクトレベルの表現を開発する。
次に、MixCon3Dは言語3Dのコントラスト学習を行い、現実世界の3Dオブジェクトを包括的に表現し、テキストアライメントを強化する。
論文 参考訳(メタデータ) (2023-11-03T06:05:36Z) - Wonder3D: Single Image to 3D using Cross-Domain Diffusion [105.16622018766236]
Wonder3Dは、単一視点画像から高忠実なテクスチャメッシュを効率的に生成する新しい手法である。
画像から3Dまでのタスクの品質,一貫性,効率性を総括的に改善するため,領域間拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-10-23T15:02:23Z) - T$^3$Bench: Benchmarking Current Progress in Text-to-3D Generation [52.029698642883226]
テキストから3Dへの手法は、強力な事前学習拡散モデルを利用してNeRFを最適化する。
ほとんどの研究は、主観的なケーススタディとユーザ実験で結果を評価している。
最初の総合的なテキスト・ツー・3DベンチマークであるT$3$Benchを紹介する。
論文 参考訳(メタデータ) (2023-10-04T17:12:18Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - 3D Shape Knowledge Graph for Cross-domain 3D Shape Retrieval [20.880210749809642]
幾何学語」は、組み合わせによって実体を表現する要素成分として機能する。
各3Dまたは2Dエンティティは、その幾何学用語を知識グラフ内に固定することができ、ドメイン間のデータ間のリンクとして機能する。
提案手法の性能をモデルNet40とShapeNetCore55のデータセットで評価した。
論文 参考訳(メタデータ) (2022-10-27T02:51:24Z) - TriCoLo: Trimodal Contrastive Loss for Text to Shape Retrieval [15.692019545368844]
テキスト・ツー・シェイプ検索は3次元形状データの成長にますます関連する問題である。
マルチモーダルデータを用いた共同埋め込み学習における比較的損失に関する最近の研究は,検索や分類などのタスクで成功を収めている。
テキスト, 多視点画像, 3次元形状ボクセルの3次元学習方式を提案し, 大規模なバッチコントラスト学習を行うことで, 複雑な注意機構や損失を伴わずに, テキスト・ツー・シェイプ検索の性能が向上することを示す。
論文 参考訳(メタデータ) (2022-01-19T00:15:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。