論文の概要: COM3D: Leveraging Cross-View Correspondence and Cross-Modal Mining for 3D Retrieval
- arxiv url: http://arxiv.org/abs/2405.04103v1
- Date: Tue, 7 May 2024 08:16:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 14:59:23.551006
- Title: COM3D: Leveraging Cross-View Correspondence and Cross-Modal Mining for 3D Retrieval
- Title(参考訳): COM3D:3D検索にクロスビュー対応とクロスモーダルマイニングを活用する
- Authors: Hao Wu, Ruochong LI, Hao Wang, Hui Xiong,
- Abstract要約: 本稿では,クロスビュー対応とクロスモーダルマイニングを活用して検索性能を向上させるCOM3Dを提案する。
特に、シーン表現変換器によって3次元特徴を増強し、3次元形状のクロスビュー対応特徴を生成する。
さらに,セミハードな負のサンプルマイニング法に基づいて,クロスモーダルマッチングプロセスの最適化を提案する。
- 参考スコア(独自算出の注目度): 21.070154402838906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we investigate an open research task of cross-modal retrieval between 3D shapes and textual descriptions. Previous approaches mainly rely on point cloud encoders for feature extraction, which may ignore key inherent features of 3D shapes, including depth, spatial hierarchy, geometric continuity, etc. To address this issue, we propose COM3D, making the first attempt to exploit the cross-view correspondence and cross-modal mining to enhance the retrieval performance. Notably, we augment the 3D features through a scene representation transformer, to generate cross-view correspondence features of 3D shapes, which enrich the inherent features and enhance their compatibility with text matching. Furthermore, we propose to optimize the cross-modal matching process based on the semi-hard negative example mining method, in an attempt to improve the learning efficiency. Extensive quantitative and qualitative experiments demonstrate the superiority of our proposed COM3D, achieving state-of-the-art results on the Text2Shape dataset.
- Abstract(参考訳): 本稿では,3次元形状とテキスト記述の相互検索に関するオープンな研究課題について検討する。
従来のアプローチは主に特徴抽出のためのポイントクラウドエンコーダに依存しており、深さ、空間的階層、幾何学的連続性などの3D形状の重要な特徴を無視する可能性がある。
この問題に対処するため,COM3Dを提案し,クロスビュー対応とクロスモーダルマイニングを活用して検索性能を向上させる。
特に3次元特徴をシーン表現変換器で拡張し、3次元形状のクロスビュー対応特徴を生成し、その特徴を豊かにし、テキストマッチングとの互換性を高める。
さらに,学習効率の向上を目的として,半ハードな負のサンプルマイニング法に基づくクロスモーダルマッチングプロセスの最適化を提案する。
広範に定量的および定性的実験を行い、提案したCOM3Dの優位性を実証し、Text2Shapeデータセットの最先端結果を得た。
関連論文リスト
- HOTS3D: Hyper-Spherical Optimal Transport for Semantic Alignment of Text-to-3D Generation [15.34704512558617]
最近のCLIP誘導3D生成法は,有望な結果を得たが,入力テキストに適合した忠実な3D形状の生成に苦慮している。
本稿では,テキスト特徴と画像特徴とをSOT(spherical optimal transport)で整列させることにより,このギャップを効果的に橋渡しするHOTS3Dを提案する。
最適にマッピングされた特徴により、拡散ベースのジェネレータとNerfベースのデコーダを使用して、それらを3次元形状に変換する。
論文 参考訳(メタデータ) (2024-07-19T15:43:24Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Wonder3D: Single Image to 3D using Cross-Domain Diffusion [105.16622018766236]
Wonder3Dは、単一視点画像から高忠実なテクスチャメッシュを効率的に生成する新しい手法である。
画像から3Dまでのタスクの品質,一貫性,効率性を総括的に改善するため,領域間拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-10-23T15:02:23Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z) - 3D Shape Knowledge Graph for Cross-domain 3D Shape Retrieval [20.880210749809642]
幾何学語」は、組み合わせによって実体を表現する要素成分として機能する。
各3Dまたは2Dエンティティは、その幾何学用語を知識グラフ内に固定することができ、ドメイン間のデータ間のリンクとして機能する。
提案手法の性能をモデルNet40とShapeNetCore55のデータセットで評価した。
論文 参考訳(メタデータ) (2022-10-27T02:51:24Z) - TriCoLo: Trimodal Contrastive Loss for Text to Shape Retrieval [15.692019545368844]
テキスト・ツー・シェイプ検索は3次元形状データの成長にますます関連する問題である。
マルチモーダルデータを用いた共同埋め込み学習における比較的損失に関する最近の研究は,検索や分類などのタスクで成功を収めている。
テキスト, 多視点画像, 3次元形状ボクセルの3次元学習方式を提案し, 大規模なバッチコントラスト学習を行うことで, 複雑な注意機構や損失を伴わずに, テキスト・ツー・シェイプ検索の性能が向上することを示す。
論文 参考訳(メタデータ) (2022-01-19T00:15:15Z) - Geometry-Contrastive Transformer for Generalized 3D Pose Transfer [95.56457218144983]
この研究の直感は、与えられたメッシュ間の幾何学的不整合を強力な自己認識機構で知覚することである。
本研究では,グローバルな幾何学的不整合に対する3次元構造的知覚能力を有する新しい幾何学コントラスト変換器を提案する。
本稿では, クロスデータセット3次元ポーズ伝達タスクのための半合成データセットとともに, 潜時等尺正則化モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-14T13:14:24Z) - Improving 3D Object Detection with Channel-wise Transformer [58.668922561622466]
我々は手作りの最小限の設計で2段階の3Dオブジェクト検出フレームワーク(CT3D)を提案する。
CT3Dは、提案対応の埋め込みとチャンネルワイドコンテキストアグリゲーションを同時に行う。
これはKITTIテスト3D検出ベンチマークで中等車カテゴリーで81.77%のAPを達成した。
論文 参考訳(メタデータ) (2021-08-23T02:03:40Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。