論文の概要: SCA3D: Enhancing Cross-modal 3D Retrieval via 3D Shape and Caption Paired Data Augmentation
- arxiv url: http://arxiv.org/abs/2502.19128v1
- Date: Wed, 26 Feb 2025 13:36:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:57:29.565794
- Title: SCA3D: Enhancing Cross-modal 3D Retrieval via 3D Shape and Caption Paired Data Augmentation
- Title(参考訳): SCA3D:3次元形状とキャプションペアデータ拡張によるクロスモーダル3D検索の強化
- Authors: Junlong Ren, Hao Wu, Hui Xiong, Hao Wang,
- Abstract要約: クロスモーダルな3D検索は,テキスト記述と3次元形状の相互マッチングを実現することを目的としている。
3Dデータの不足と高価さは、既存のクロスモーダルな3D検索手法の性能を制約する。
クロスモーダル3D検索のための新しい3D形状とキャプションオンラインデータ拡張手法であるSCA3Dを紹介する。
- 参考スコア(独自算出の注目度): 21.070154402838906
- License:
- Abstract: The cross-modal 3D retrieval task aims to achieve mutual matching between text descriptions and 3D shapes. This has the potential to enhance the interaction between natural language and the 3D environment, especially within the realms of robotics and embodied artificial intelligence (AI) applications. However, the scarcity and expensiveness of 3D data constrain the performance of existing cross-modal 3D retrieval methods. These methods heavily rely on features derived from the limited number of 3D shapes, resulting in poor generalization ability across diverse scenarios. To address this challenge, we introduce SCA3D, a novel 3D shape and caption online data augmentation method for cross-modal 3D retrieval. Our approach uses the LLaVA model to create a component library, captioning each segmented part of every 3D shape within the dataset. Notably, it facilitates the generation of extensive new 3D-text pairs containing new semantic features. We employ both inter and intra distances to align various components into a new 3D shape, ensuring that the components do not overlap and are closely fitted. Further, text templates are utilized to process the captions of each component and generate new text descriptions. Besides, we use unimodal encoders to extract embeddings for 3D shapes and texts based on the enriched dataset. We then calculate fine-grained cross-modal similarity using Earth Mover's Distance (EMD) and enhance cross-modal matching with contrastive learning, enabling bidirectional retrieval between texts and 3D shapes. Extensive experiments show our SCA3D outperforms previous works on the Text2Shape dataset, raising the Shape-to-Text RR@1 score from 20.03 to 27.22 and the Text-to-Shape RR@1 score from 13.12 to 16.67. Codes can be found in https://github.com/3DAgentWorld/SCA3D.
- Abstract(参考訳): クロスモーダルな3D検索タスクは,テキスト記述と3次元形状の相互マッチングを実現することを目的としている。
これは、自然言語と3D環境、特にロボティクスと組み込み人工知能(AI)応用の領域における相互作用を強化する可能性がある。
しかし、3Dデータの不足と高価さは、既存のクロスモーダルな3D検索手法の性能を制約している。
これらの手法は、限られた3次元形状から派生した特徴に大きく依存しており、様々なシナリオにおける一般化能力の低下をもたらす。
この課題に対処するために,新しい3D形状とキャプションのオンラインデータ拡張手法であるSCA3Dを紹介した。
我々のアプローチでは、LLaVAモデルを使用してコンポーネントライブラリを作成し、データセット内の各3次元形状の区切りされた部分をキャプションします。
注目すべきは、新しいセマンティック機能を含む拡張された3Dテキストペアの生成を容易にすることだ。
我々は、各部品を新しい3次元形状に整列させるために、中間と内部の両方の距離を用いており、部品が重なり合わず、密着していることを保証している。
さらに、テキストテンプレートを使用して各コンポーネントのキャプションを処理し、新しいテキスト記述を生成する。
さらに,アンモダルエンコーダを用いて3次元形状とテキストの埋め込みを抽出する。
次に,Earth Mover's Distance (EMD) を用いて微細なモーダル類似度を計算し,テキストと3次元形状の双方向検索を可能にする。
SCA3Dは以前のText2Shapeデータセットよりも優れており、Shape-to-Text RR@1スコアが20.03から27.22に、Text-to-Shape RR@1スコアが13.12から16.67に上昇しています。
コードはhttps://github.com/3DAgentWorld/SCA3Dで見ることができる。
関連論文リスト
- AugRefer: Advancing 3D Visual Grounding via Cross-Modal Augmentation and Spatial Relation-based Referring [49.78120051062641]
3Dビジュアルグラウンドティングは、自然言語記述と対象物とを3Dシーン内で関連付けることを目的としている。
既存のアプローチでは、トレーニング用に利用可能なテキスト3Dペアが不足しているのが一般的である。
AugReferは3次元視覚的接地を前進させる新しい手法である。
論文 参考訳(メタデータ) (2025-01-16T09:57:40Z) - Geometry Image Diffusion: Fast and Data-Efficient Text-to-3D with Image-Based Surface Representation [2.3213238782019316]
GIMDiffusionは、幾何学画像を利用して2次元画像を用いて3次元形状を効率よく表現する新しいテキスト・ツー・3Dモデルである。
安定拡散のような既存のテキスト・ツー・イメージモデルのリッチな2次元先行モデルを利用する。
簡単に言うと、GIMDiffusionは現行のText-to-Imageモデルに匹敵する速度で3Dアセットを生成することができる。
論文 参考訳(メタデータ) (2024-09-05T17:21:54Z) - TAMM: TriAdapter Multi-Modal Learning for 3D Shape Understanding [28.112402580426174]
TriAdapter Multi-Modal Learning (TAMM)は3つの相乗的アダプタに基づく新しい2段階学習手法である。
TAMMは、広範囲の3Dエンコーダアーキテクチャ、事前トレーニングデータセット、下流タスクの3D表現を一貫して強化する。
論文 参考訳(メタデータ) (2024-02-28T17:18:38Z) - VolumeDiffusion: Flexible Text-to-3D Generation with Efficient Volumetric Encoder [56.59814904526965]
本稿では,テキストから3D生成のための先駆的な3Dエンコーダを提案する。
マルチビュー画像から特徴ボリュームを効率よく取得する軽量ネットワークを開発した。
3Dボリュームは、3D U-Netを使用してテキストから3D生成のための拡散モデルに基づいて訓練される。
論文 参考訳(メタデータ) (2023-12-18T18:59:05Z) - Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D
Prior [52.44678180286886]
2次元拡散モデルでは、3次元データなしで優れた一般化と豊富な詳細を実現する蒸留手法が見つかる。
提案するSherpa3Dは,高忠実度,一般化性,幾何整合性を同時に実現する新しいテキスト・ツー・3Dフレームワークである。
論文 参考訳(メタデータ) (2023-12-11T18:59:18Z) - TPA3D: Triplane Attention for Fast Text-to-3D Generation [28.33270078863519]
テキスト誘導型3次元生成(TPA3D)のためのトライプレーンアテンションを提案する。
TPA3Dは、高速テキストから3D生成のための、エンドツーエンドのトレーニング可能なGANベースのディープラーニングモデルである。
TPA3Dは, きめ細かい記述と整合した高品質な3次元テクスチャ形状を生成する。
論文 参考訳(メタデータ) (2023-12-05T10:39:37Z) - 3DStyle-Diffusion: Pursuing Fine-grained Text-driven 3D Stylization with
2D Diffusion Models [102.75875255071246]
テキスト駆動型スタイリングによる3Dコンテンツ作成は、マルチメディアとグラフィックコミュニティにとって根本的な課題となっている。
2次元拡散モデルから制御可能な外観と幾何学的ガイダンスを付加した3次元メッシュのきめ細かいスタイリングをトリガーする新しい3DStyle-Diffusionモデルを提案する。
論文 参考訳(メタデータ) (2023-11-09T15:51:27Z) - OVIR-3D: Open-Vocabulary 3D Instance Retrieval Without Training on 3D
Data [15.53270401654078]
OVIR-3Dは、訓練に3Dデータを使うことなく、オープンな3Dオブジェクトインスタンス検索を行う方法である。
これはテキスト整列2D領域の提案を多視点で3D空間に融合することで実現される。
公開データセットと実際のロボットを用いた実験は、ロボットのナビゲーションと操作における手法の有効性とその可能性を示している。
論文 参考訳(メタデータ) (2023-11-06T05:00:00Z) - UniG3D: A Unified 3D Object Generation Dataset [75.49544172927749]
UniG3Dは、ShapeNetデータセット上に普遍的なデータ変換パイプラインを用いて構築された、統一された3Dオブジェクト生成データセットである。
このパイプラインは、各生の3Dモデルを包括的なマルチモーダルデータ表現に変換する。
データセットのデータソースの選択は、そのスケールと品質に基づいています。
論文 参考訳(メタデータ) (2023-06-19T07:03:45Z) - 3D Shape Knowledge Graph for Cross-domain 3D Shape Retrieval [20.880210749809642]
幾何学語」は、組み合わせによって実体を表現する要素成分として機能する。
各3Dまたは2Dエンティティは、その幾何学用語を知識グラフ内に固定することができ、ドメイン間のデータ間のリンクとして機能する。
提案手法の性能をモデルNet40とShapeNetCore55のデータセットで評価した。
論文 参考訳(メタデータ) (2022-10-27T02:51:24Z) - Stereo Object Matching Network [78.35697025102334]
本稿では,画像からの2次元コンテキスト情報と3次元オブジェクトレベル情報の両方を利用するステレオオブジェクトマッチング手法を提案する。
コストボリューム空間における3次元オブジェクト性を扱うための新しい方法として, 選択的サンプリング (RoISelect) と 2D-3D 融合がある。
論文 参考訳(メタデータ) (2021-03-23T12:54:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。