論文の概要: SAMURAI: Shape-Aware Multimodal Retrieval for 3D Object Identification
- arxiv url: http://arxiv.org/abs/2506.21056v1
- Date: Thu, 26 Jun 2025 07:10:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.012678
- Title: SAMURAI: Shape-Aware Multimodal Retrieval for 3D Object Identification
- Title(参考訳): 佐村井:3次元物体識別のための形状認識マルチモーダル検索
- Authors: Dinh-Khoi Vo, Van-Loc Nguyen, Minh-Triet Tran, Trung-Nghia Le,
- Abstract要約: 3次元物体識別のための形状認識型マルチモーダル検索法である佐村井を提案する。
Samuraiは、CLIPベースのセマンティックマッチングと、マスクされた領域のバイナリシルエットに由来する形状誘導された再分類を統合している。
専用前処理パイプラインは、最大の連結成分を抽出し、バックグラウンドノイズを除去することにより、マスク品質を向上させる。
- 参考スコア(独自算出の注目度): 9.861215740353247
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Retrieving 3D objects in complex indoor environments using only a masked 2D image and a natural language description presents significant challenges. The ROOMELSA challenge limits access to full 3D scene context, complicating reasoning about object appearance, geometry, and semantics. These challenges are intensified by distorted viewpoints, textureless masked regions, ambiguous language prompts, and noisy segmentation masks. To address this, we propose SAMURAI: Shape-Aware Multimodal Retrieval for 3D Object Identification. SAMURAI integrates CLIP-based semantic matching with shape-guided re-ranking derived from binary silhouettes of masked regions, alongside a robust majority voting strategy. A dedicated preprocessing pipeline enhances mask quality by extracting the largest connected component and removing background noise. Our hybrid retrieval framework leverages both language and shape cues, achieving competitive performance on the ROOMELSA private test set. These results highlight the importance of combining shape priors with language understanding for robust open-world 3D object retrieval.
- Abstract(参考訳): マスキングされた2D画像と自然言語記述だけで複雑な屋内環境下での3Dオブジェクトの検索は重要な課題である。
ROOMELSAチャレンジは、オブジェクトの外観、幾何学、意味論に関する推論を複雑にし、完全な3Dシーンコンテキストへのアクセスを制限する。
これらの課題は、歪んだ視点、テクスチャのないマスキング領域、あいまいな言語プロンプト、うるさいセグメンテーションマスクによって強化される。
そこで本研究では,3次元物体識別のための形状認識型マルチモーダル検索法である佐村井を提案する。
Samuraiは、CLIPベースのセマンティックマッチングと、マスキングされた領域のバイナリシルエットから派生した形状誘導された再分類とを、ロバストな多数決戦略と統合する。
専用前処理パイプラインは、最大の連結成分を抽出し、バックグラウンドノイズを除去することにより、マスク品質を向上させる。
我々のハイブリッド検索フレームワークは,言語と形状の両方を活用し,ROOMELSAプライベートテストセット上での競合性能を実現する。
これらの結果は,オープンワールド3次元オブジェクト検索において,形状先行と言語理解を組み合わせることの重要性を強調した。
関連論文リスト
- MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation [87.30919771444117]
推論セグメンテーション(Reasoning segmentation)は、人間の意図と空間的推論に基づく複雑なシーンにおける対象オブジェクトのセグメンテーションを目的としている。
最近のマルチモーダル大言語モデル(MLLM)は印象的な2次元画像推論セグメンテーションを実証している。
本稿では,2次元MLLMから3次元シーン理解へ知識を伝達するフレームワークであるMLLM-For3Dを紹介する。
論文 参考訳(メタデータ) (2025-03-23T16:40:20Z) - XMask3D: Cross-modal Mask Reasoning for Open Vocabulary 3D Semantic Segmentation [72.12250272218792]
本稿では,3次元特徴量と2次元テキスト埋め込み空間とのより精巧なマスクレベルのアライメントを,クロスモーダルマスク推論フレームワークであるXMask3Dを用いて提案する。
我々は、3Dグローバルな特徴を暗黙の条件として、事前訓練された2D denoising UNetに統合し、セグメンテーションマスクの生成を可能にする。
生成した2Dマスクを用いて、マスクレベルの3D表現を視覚言語の特徴空間と整合させ、3D幾何埋め込みの開語彙能力を増大させる。
論文 参考訳(メタデータ) (2024-11-20T12:02:12Z) - RefMask3D: Language-Guided Transformer for 3D Referring Segmentation [32.11635464720755]
RefMask3Dは、総合的なマルチモーダル機能インタラクションと理解を探求することを目的としている。
RefMask3Dは、挑戦的なScanReferデータセットにおいて、3.16% mIoUの大きなマージンで、従来の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-25T17:58:03Z) - MonoMAE: Enhancing Monocular 3D Detection through Depth-Aware Masked Autoencoders [93.87585467898252]
Masked Autoencodersにインスパイアされたモノクラー3D検出器MonoMAEを設計する。
MonoMAEは2つの新しい設計で構成されている。第一に、非閉塞オブジェクトクエリの特定の部分を選択的にマスキングするディープ・アウェア・マスクである。
2つ目は軽量なクエリ補完で、ディープ・アウェア・マスキングと連携して、マスキングされたオブジェクトクエリの再構築と完了を学習する。
論文 参考訳(メタデータ) (2024-05-13T12:32:45Z) - Segment Any 3D Object with Language [58.471327490684295]
本稿では,Segment any 3D Object with LanguagE (SOLE)を紹介した。
具体的には、バックボーンとデコーダの両方にマルチモーダル意味を組み込むマルチモーダル融合ネットワークを提案する。
我々のSOLEは、ScanNetv2、ScanNet200、Replicaベンチマークにおいて、従来の方法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-04-02T17:59:10Z) - MM-3DScene: 3D Scene Understanding by Customizing Masked Modeling with
Informative-Preserved Reconstruction and Self-Distilled Consistency [120.9499803967496]
本稿では,地域統計を探索し,代表的構造化点の発見と保存を行う新しい情報保存型再構築法を提案する。
本手法は, 地域形状のモデル化に集中し, マスク復元のあいまいさを軽減できる。
マスク付き領域における情報保存型再構築と未加工領域からの連続自己蒸留を組み合わせることにより,MM-3DSceneと呼ばれる統合フレームワークが提供される。
論文 参考訳(メタデータ) (2022-12-20T01:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。