Fugu-MT 論文翻訳(概要): SCA3D: Enhancing Cross-modal 3D Retrieval via 3D Shape and Caption Paired Data Augmentation

論文の概要: SCA3D: Enhancing Cross-modal 3D Retrieval via 3D Shape and Caption Paired Data Augmentation

arxiv url: http://arxiv.org/abs/2502.19128v1
Date: Wed, 26 Feb 2025 13:36:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-27 15:24:46.513411
Title: SCA3D: Enhancing Cross-modal 3D Retrieval via 3D Shape and Caption Paired Data Augmentation
Title（参考訳）: SCA3D:3次元形状とキャプションペアデータ拡張によるクロスモーダル3D検索の強化
Authors: Junlong Ren, Hao Wu, Hui Xiong, Hao Wang,
Abstract要約: クロスモーダルな3D検索は,テキスト記述と3次元形状の相互マッチングを実現することを目的としている。 3Dデータの不足と高価さは、既存のクロスモーダルな3D検索手法の性能を制約する。クロスモーダル3D検索のための新しい3D形状とキャプションオンラインデータ拡張手法であるSCA3Dを紹介する。
参考スコア（独自算出の注目度）: 21.070154402838906
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The cross-modal 3D retrieval task aims to achieve mutual matching between text descriptions and 3D shapes. This has the potential to enhance the interaction between natural language and the 3D environment, especially within the realms of robotics and embodied artificial intelligence (AI) applications. However, the scarcity and expensiveness of 3D data constrain the performance of existing cross-modal 3D retrieval methods. These methods heavily rely on features derived from the limited number of 3D shapes, resulting in poor generalization ability across diverse scenarios. To address this challenge, we introduce SCA3D, a novel 3D shape and caption online data augmentation method for cross-modal 3D retrieval. Our approach uses the LLaVA model to create a component library, captioning each segmented part of every 3D shape within the dataset. Notably, it facilitates the generation of extensive new 3D-text pairs containing new semantic features. We employ both inter and intra distances to align various components into a new 3D shape, ensuring that the components do not overlap and are closely fitted. Further, text templates are utilized to process the captions of each component and generate new text descriptions. Besides, we use unimodal encoders to extract embeddings for 3D shapes and texts based on the enriched dataset. We then calculate fine-grained cross-modal similarity using Earth Mover's Distance (EMD) and enhance cross-modal matching with contrastive learning, enabling bidirectional retrieval between texts and 3D shapes. Extensive experiments show our SCA3D outperforms previous works on the Text2Shape dataset, raising the Shape-to-Text RR@1 score from 20.03 to 27.22 and the Text-to-Shape RR@1 score from 13.12 to 16.67. Codes can be found in https://github.com/3DAgentWorld/SCA3D.
Abstract（参考訳）: クロスモーダルな3D検索タスクは,テキスト記述と3次元形状の相互マッチングを実現することを目的としている。これは、自然言語と3D環境、特にロボティクスと組み込み人工知能(AI)応用の領域における相互作用を強化する可能性がある。しかし、3Dデータの不足と高価さは、既存のクロスモーダルな3D検索手法の性能を制約している。これらの手法は、限られた3次元形状から派生した特徴に大きく依存しており、様々なシナリオにおける一般化能力の低下をもたらす。この課題に対処するために,新しい3D形状とキャプションのオンラインデータ拡張手法であるSCA3Dを紹介した。我々のアプローチでは、LLaVAモデルを使用してコンポーネントライブラリを作成し、データセット内の各3次元形状の区切りされた部分をキャプションします。注目すべきは、新しいセマンティック機能を含む拡張された3Dテキストペアの生成を容易にすることだ。我々は、各部品を新しい3次元形状に整列させるために、中間と内部の両方の距離を用いており、部品が重なり合わず、密着していることを保証している。さらに、テキストテンプレートを使用して各コンポーネントのキャプションを処理し、新しいテキスト記述を生成する。さらに,アンモダルエンコーダを用いて3次元形状とテキストの埋め込みを抽出する。次に,Earth Mover's Distance (EMD) を用いて微細なモーダル類似度を計算し,テキストと3次元形状の双方向検索を可能にする。 SCA3Dは以前のText2Shapeデータセットよりも優れており、Shape-to-Text RR@1スコアが20.03から27.22に、Text-to-Shape RR@1スコアが13.12から16.67に上昇しています。コードはhttps://github.com/3DAgentWorld/SCA3Dで見ることができる。

関連論文リスト

TriCLIP-3D: A Unified Parameter-Efficient Framework for Tri-Modal 3D Visual Grounding based on CLIP [34.99141865569255]
3Dビジュアルグラウンドティングは、人間の指示に基づいて現実世界の3D環境における視覚情報を理解するための具体的エージェントである。既存の3Dビジュアルグラウンド法は、異なるモダリティの異なるエンコーダに依存している。本稿では,3つのモードすべてを処理するために,統合された2次元事前学習型マルチモーダルネットワークを提案する。
論文参考訳（メタデータ） (2025-07-20T10:28:06Z)
Enhanced Cross-modal 3D Retrieval via Tri-modal Reconstruction [4.820576346277399]
クロスモーダルな3D検索は重要な課題であり、3Dとテキストのモダリティ間の双方向検索の実現を目指している。マルチビュー画像と点雲を併用して3次元形状を共同で表現し,3次元アライメントを容易にすることを提案する。本手法は, テキスト検索とテキスト検索の両方において, 従来の最先端手法よりも優れていた。
論文参考訳（メタデータ） (2025-04-02T08:29:42Z)
AugRefer: Advancing 3D Visual Grounding via Cross-Modal Augmentation and Spatial Relation-based Referring [49.78120051062641]
3Dビジュアルグラウンドティングは、自然言語記述と対象物とを3Dシーン内で関連付けることを目的としている。既存のアプローチでは、トレーニング用に利用可能なテキスト3Dペアが不足しているのが一般的である。 AugReferは3次元視覚的接地を前進させる新しい手法である。
論文参考訳（メタデータ） (2025-01-16T09:57:40Z)
Geometry Image Diffusion: Fast and Data-Efficient Text-to-3D with Image-Based Surface Representation [2.3213238782019316]
GIMDiffusionは、幾何学画像を利用して2次元画像を用いて3次元形状を効率よく表現する新しいテキスト・ツー・3Dモデルである。安定拡散のような既存のテキスト・ツー・イメージモデルのリッチな2次元先行モデルを利用する。簡単に言うと、GIMDiffusionは現行のText-to-Imageモデルに匹敵する速度で3Dアセットを生成することができる。
論文参考訳（メタデータ） (2024-09-05T17:21:54Z)
VolumeDiffusion: Flexible Text-to-3D Generation with Efficient Volumetric Encoder [56.59814904526965]
本稿では,テキストから3D生成のための先駆的な3Dエンコーダを提案する。マルチビュー画像から特徴ボリュームを効率よく取得する軽量ネットワークを開発した。 3Dボリュームは、3D U-Netを使用してテキストから3D生成のための拡散モデルに基づいて訓練される。
論文参考訳（メタデータ） (2023-12-18T18:59:05Z)
Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D Prior [52.44678180286886]
2次元拡散モデルでは、3次元データなしで優れた一般化と豊富な詳細を実現する蒸留手法が見つかる。提案するSherpa3Dは,高忠実度,一般化性,幾何整合性を同時に実現する新しいテキスト・ツー・3Dフレームワークである。
論文参考訳（メタデータ） (2023-12-11T18:59:18Z)
TPA3D: Triplane Attention for Fast Text-to-3D Generation [28.33270078863519]
テキスト誘導型3次元生成(TPA3D)のためのトライプレーンアテンションを提案する。 TPA3Dは、高速テキストから3D生成のための、エンドツーエンドのトレーニング可能なGANベースのディープラーニングモデルである。 TPA3Dは, きめ細かい記述と整合した高品質な3次元テクスチャ形状を生成する。
論文参考訳（メタデータ） (2023-12-05T10:39:37Z)
3DStyle-Diffusion: Pursuing Fine-grained Text-driven 3D Stylization with 2D Diffusion Models [102.75875255071246]
テキスト駆動型スタイリングによる3Dコンテンツ作成は、マルチメディアとグラフィックコミュニティにとって根本的な課題となっている。 2次元拡散モデルから制御可能な外観と幾何学的ガイダンスを付加した3次元メッシュのきめ細かいスタイリングをトリガーする新しい3DStyle-Diffusionモデルを提案する。
論文参考訳（メタデータ） (2023-11-09T15:51:27Z)
OVIR-3D: Open-Vocabulary 3D Instance Retrieval Without Training on 3D Data [15.53270401654078]
OVIR-3Dは、訓練に3Dデータを使うことなく、オープンな3Dオブジェクトインスタンス検索を行う方法である。これはテキスト整列2D領域の提案を多視点で3D空間に融合することで実現される。公開データセットと実際のロボットを用いた実験は、ロボットのナビゲーションと操作における手法の有効性とその可能性を示している。
論文参考訳（メタデータ） (2023-11-06T05:00:00Z)
T$^3$Bench: Benchmarking Current Progress in Text-to-3D Generation [52.029698642883226]
テキストから3Dへの手法は、強力な事前学習拡散モデルを利用してNeRFを最適化する。ほとんどの研究は、主観的なケーススタディとユーザ実験で結果を評価している。最初の総合的なテキスト・ツー・3DベンチマークであるT$3$Benchを紹介する。
論文参考訳（メタデータ） (2023-10-04T17:12:18Z)
UniG3D: A Unified 3D Object Generation Dataset [75.49544172927749]
UniG3Dは、ShapeNetデータセット上に普遍的なデータ変換パイプラインを用いて構築された、統一された3Dオブジェクト生成データセットである。このパイプラインは、各生の3Dモデルを包括的なマルチモーダルデータ表現に変換する。データセットのデータソースの選択は、そのスケールと品質に基づいています。
論文参考訳（メタデータ） (2023-06-19T07:03:45Z)
3D Shape Knowledge Graph for Cross-domain 3D Shape Retrieval [20.880210749809642]
幾何学語」は、組み合わせによって実体を表現する要素成分として機能する。各3Dまたは2Dエンティティは、その幾何学用語を知識グラフ内に固定することができ、ドメイン間のデータ間のリンクとして機能する。提案手法の性能をモデルNet40とShapeNetCore55のデータセットで評価した。
論文参考訳（メタデータ） (2022-10-27T02:51:24Z)
Stereo Object Matching Network [78.35697025102334]
本稿では,画像からの2次元コンテキスト情報と3次元オブジェクトレベル情報の両方を利用するステレオオブジェクトマッチング手法を提案する。コストボリューム空間における3次元オブジェクト性を扱うための新しい方法として, 選択的サンプリング (RoISelect) と 2D-3D 融合がある。
論文参考訳（メタデータ） (2021-03-23T12:54:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。