論文の概要: DenseGrounding: Improving Dense Language-Vision Semantics for Ego-Centric 3D Visual Grounding
- arxiv url: http://arxiv.org/abs/2505.04965v1
- Date: Thu, 08 May 2025 05:49:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.763579
- Title: DenseGrounding: Improving Dense Language-Vision Semantics for Ego-Centric 3D Visual Grounding
- Title(参考訳): DenseGrounding:Ego-Centric 3D視覚グラウンドのためのDense Language-Vision Semanticsの改善
- Authors: Henry Zheng, Hao Shi, Qihang Peng, Yong Xien Chng, Rui Huang, Yepeng Weng, Zhongchao Shi, Gao Huang,
- Abstract要約: この分野での基本課題はエゴ中心の3次元視覚グラウンド(英語版)であり、エージェントは言葉による記述に基づいて現実世界の3次元空間内の対象物を特定する。
視覚的意味論とテキスト的意味論を両立させる新しいアプローチであるDenseGroundingを提案する。
視覚的特徴として,細粒度のグローバルなシーンの特徴を捉えることで,密接なセマンティックなセマンティックなセマンティック・エンハンサーを導入する。
テキスト記述のための言語セマンティックエンハンサー(Language Semantic Enhancer)を提案する。
- 参考スコア(独自算出の注目度): 44.81427860963744
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Enabling intelligent agents to comprehend and interact with 3D environments through natural language is crucial for advancing robotics and human-computer interaction. A fundamental task in this field is ego-centric 3D visual grounding, where agents locate target objects in real-world 3D spaces based on verbal descriptions. However, this task faces two significant challenges: (1) loss of fine-grained visual semantics due to sparse fusion of point clouds with ego-centric multi-view images, (2) limited textual semantic context due to arbitrary language descriptions. We propose DenseGrounding, a novel approach designed to address these issues by enhancing both visual and textual semantics. For visual features, we introduce the Hierarchical Scene Semantic Enhancer, which retains dense semantics by capturing fine-grained global scene features and facilitating cross-modal alignment. For text descriptions, we propose a Language Semantic Enhancer that leverages large language models to provide rich context and diverse language descriptions with additional context during model training. Extensive experiments show that DenseGrounding significantly outperforms existing methods in overall accuracy, with improvements of 5.81% and 7.56% when trained on the comprehensive full dataset and smaller mini subset, respectively, further advancing the SOTA in egocentric 3D visual grounding. Our method also achieves 1st place and receives the Innovation Award in the CVPR 2024 Autonomous Grand Challenge Multi-view 3D Visual Grounding Track, validating its effectiveness and robustness.
- Abstract(参考訳): 自然言語による3D環境の理解と対話を可能にするインテリジェントエージェントの実現は、ロボット工学と人間とコンピュータのインタラクションを促進する上で不可欠である。
この分野の基本課題はエゴ中心の3次元視覚接地であり、エージェントは言葉による記述に基づいて現実世界の3次元空間内の対象物を特定する。
しかし, この課題は, 1) 点雲とエゴ中心の多視点画像との疎融合による微粒な視覚的意味論の喪失, (2) 任意の言語記述による限定的なテキスト的意味論的文脈の喪失, という2つの大きな課題に直面する。
視覚的意味論とテキスト的意味論を両立させることにより,これらの問題に対処する新しいアプローチであるDenseGroundingを提案する。
視覚的特徴として階層的シーンセマンティックエンハンサー(Hierarchical Scene Semantic Enhancer)を導入する。
テキスト記述には,大規模言語モデルを活用する言語セマンティックエンハンサー(Language Semantic Enhancer)を提案する。
大規模な実験により、DenseGroundingは既存の手法を全体的な精度で大幅に上回り、総合的な全データセットと小さなミニサブセットでトレーニングすると5.81%と7.56%の改善が達成され、エゴセントリックな3D視覚グラウンドでSOTAをさらに前進させた。
また,本手法は,CVPR 2024 Autonomous Grand Challenge Multi-view 3D Visual Grounding Trackにおいて,その有効性とロバスト性を検証し,イノベーション賞を受賞した。
関連論文リスト
- SceneVerse: Scaling 3D Vision-Language Learning for Grounded Scene Understanding [37.47195477043883]
3D視覚言語グラウンドリングは、言語と3D物理環境の整合性に焦点を当て、エンボディエージェントの開発の基盤となっている。
約68Kの屋内シーンを含む最初の100万スケールの3Dビジョン言語データセットであるSceneVerseを紹介した。
このスケーリングにより、3次元視覚言語学習のための一貫した事前学習フレームワーク、Grounded Pre-training for Scenes (GPS) が実現可能であることを実証する。
論文 参考訳(メタデータ) (2024-01-17T17:04:35Z) - Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - WildRefer: 3D Object Localization in Large-scale Dynamic Scenes with Multi-modal Visual Data and Natural Language [31.691159120136064]
本稿では,自然言語記述とオンラインキャプチャによるマルチモーダル視覚データに基づく大規模動的シーンにおける3次元視覚接地作業について紹介する。
本研究では,画像中のリッチな外観情報,位置,および点雲中の幾何学的手がかりをフル活用して,WildReferという新しい手法を提案する。
われわれのデータセットは、野生の3Dビジュアルグラウンドの研究にとって重要なものであり、自動運転とサービスロボットの開発を促進する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-04-12T06:48:26Z) - ScanERU: Interactive 3D Visual Grounding based on Embodied Reference
Understanding [67.21613160846299]
Embodied Reference Understanding (ERU) はこの懸念に対して最初に設計されている。
ScanERUと呼ばれる新しいデータセットは、このアイデアの有効性を評価するために構築されている。
論文 参考訳(メタデータ) (2023-03-23T11:36:14Z) - Self-supervised 3D Semantic Representation Learning for
Vision-and-Language Navigation [30.429893959096752]
ボクセルレベルの3Dセマンティック再構築を3Dセマンティック表現にエンコードする新しいトレーニングフレームワークを開発した。
LSTMに基づくナビゲーションモデルを構築し,提案した3Dセマンティック表現とBERT言語特徴を視覚言語ペア上で学習する。
実験の結果、提案手法は、R2Rデータセットの未確認分割とテスト未確認の検証において、成功率68%と66%を達成することがわかった。
論文 参考訳(メタデータ) (2022-01-26T07:43:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。