論文の概要: CrossOver: 3D Scene Cross-Modal Alignment
- arxiv url: http://arxiv.org/abs/2502.15011v1
- Date: Thu, 20 Feb 2025 20:05:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 17:07:00.671811
- Title: CrossOver: 3D Scene Cross-Modal Alignment
- Title(参考訳): CrossOver:3Dシーンのクロスモーダルアライメント
- Authors: Sayan Deb Sarkar, Ondrej Miksik, Marc Pollefeys, Daniel Barath, Iro Armeni,
- Abstract要約: CrossOverは、クロスモーダルな3Dシーン理解のための新しいフレームワークである。
モダリティを整列させることにより、シーンの統一的でモダリティに依存しない埋め込み空間を学ぶ。
堅牢なシーン検索とオブジェクトのローカライゼーションをサポートする。
- 参考スコア(独自算出の注目度): 78.3057713547313
- License:
- Abstract: Multi-modal 3D object understanding has gained significant attention, yet current approaches often assume complete data availability and rigid alignment across all modalities. We present CrossOver, a novel framework for cross-modal 3D scene understanding via flexible, scene-level modality alignment. Unlike traditional methods that require aligned modality data for every object instance, CrossOver learns a unified, modality-agnostic embedding space for scenes by aligning modalities - RGB images, point clouds, CAD models, floorplans, and text descriptions - with relaxed constraints and without explicit object semantics. Leveraging dimensionality-specific encoders, a multi-stage training pipeline, and emergent cross-modal behaviors, CrossOver supports robust scene retrieval and object localization, even with missing modalities. Evaluations on ScanNet and 3RScan datasets show its superior performance across diverse metrics, highlighting adaptability for real-world applications in 3D scene understanding.
- Abstract(参考訳): マルチモーダルな3Dオブジェクト理解は注目されているが、現在のアプローチでは、すべてのモダリティに対して完全なデータ可用性と厳密なアライメントを前提としていることが多い。
フレキシブルなシーンレベルのモダリティアライメントによる3次元シーン理解のための新しいフレームワークであるCrossOverを提案する。
すべてのオブジェクトインスタンスに対して一致したモダリティデータを必要とする従来のメソッドとは異なり、CrossOverはRGBイメージ、ポイントクラウド、CADモデル、フロアプラン、テキスト記述などのモダリティを調整し、制約を緩和し、明示的なオブジェクトセマンティクスなしで、シーンの統一的でモダリティに依存しない埋め込み空間を学ぶ。
ディメンタリティ固有のエンコーダ、マルチステージのトレーニングパイプライン、創発的なクロスモーダルな振る舞いを活用するCrossOverは、ロバストなシーン検索とオブジェクトのローカライゼーションをサポートし、モダリティを欠いている。
ScanNetと3RScanデータセットの評価は、さまざまなメトリクスで優れたパフォーマンスを示し、3Dシーン理解における現実世界のアプリケーションへの適応性を強調している。
関連論文リスト
- Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - Building a Strong Pre-Training Baseline for Universal 3D Large-Scale Perception [41.77153804695413]
汎用的な3D表現を備えた効果的な事前学習フレームワークは、大規模な動的シーンを知覚するのに非常に望ましい。
本研究では,シーンレベルのセマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマン
論文 参考訳(メタデータ) (2024-05-12T07:58:52Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - CVSformer: Cross-View Synthesis Transformer for Semantic Scene
Completion [0.0]
クロスビューオブジェクト関係を学習するための多視点特徴合成とクロスビュー変換からなるクロスビュー合成変換器(CVSformer)を提案する。
拡張された特徴を用いて、全てのボクセルの幾何学的占有度と意味ラベルを予測する。
我々はCVSformerを公開データセット上で評価し、CVSformerは最先端の結果を得る。
論文 参考訳(メタデータ) (2023-07-16T04:08:03Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。