論文の概要: Open-Set 3D Semantic Instance Maps for Vision Language Navigation -- O3D-SIM
- arxiv url: http://arxiv.org/abs/2404.17922v2
- Date: Sat, 25 Oct 2025 13:48:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.207379
- Title: Open-Set 3D Semantic Instance Maps for Vision Language Navigation -- O3D-SIM
- Title(参考訳): Open-Set 3D Semantic Instance Maps for Vision Language Navigation -- O3D-SIM
- Authors: Laksh Nanwani, Kumaraditya Gupta, Aditya Mathur, Swayam Agrawal, A. H. Abdul Hafez, K. Madhava Krishna,
- Abstract要約: 人間は周囲のメンタルマップを作り、オブジェクトの関係を理解し、言語クエリに基づいてナビゲートする。
事例レベルの情報と環境の意味的理解が,言語指導タスクの性能向上に有効であることを示す。
本稿では,3次元のクラウドマップをインスタンスレベルの埋め込みで表現し,自然言語コマンドがクエリできるというセマンティック理解をもたらす。
- 参考スコア(独自算出の注目度): 6.475074453206891
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Humans excel at forming mental maps of their surroundings, equipping them to understand object relationships and navigate based on language queries. Our previous work, SI Maps (Nanwani L, Agarwal A, Jain K, et al. Instance-level semantic maps for vision language navigation. In: 2023 32nd IEEE International Conference on Robot and Human Interactive Communication (RO-MAN). IEEE; 2023 Aug.), showed that having instance-level information and the semantic understanding of an environment helps significantly improve performance for language-guided tasks. We extend this instance-level approach to 3D while increasing the pipeline's robustness and improving quantitative and qualitative results. Our method leverages foundational models for object recognition, image segmentation, and feature extraction. We propose a representation that results in a 3D point cloud map with instance-level embeddings, which bring in the semantic understanding that natural language commands can query. Quantitatively, the work improves upon the success rate of language-guided tasks. At the same time, we qualitatively observe the ability to identify instances more clearly and leverage the foundational models and language and image-aligned embeddings to identify objects that, otherwise, a closed-set approach wouldn't be able to identify. Project Page - https://smart-wheelchair-rrc.github.io/o3d-sim-webpage
- Abstract(参考訳): 人間は周囲のメンタルマップを作り、オブジェクトの関係を理解し、言語クエリに基づいてナビゲートする。
我々の以前の研究であるSI Maps (Nanwani L, Agarwal A, Jain K, et al Instance-level semantic map for vision language navigation。
2023年の第32回IEEE International Conference on Robot and Human Interactive Communication (RO-MAN)に参加。
IEEE:2023年8月。
その結果, 言語指導タスクの性能向上には, インスタンスレベルの情報と環境の意味的理解が有効であることが示唆された。
このインスタンスレベルのアプローチを3Dに拡張し、パイプラインの堅牢性を高め、定量的かつ質的な結果を改善する。
本手法は,オブジェクト認識,画像分割,特徴抽出のための基礎モデルを活用する。
本稿では,3次元のクラウドマップをインスタンスレベルの埋め込みで表現し,自然言語コマンドがクエリできるというセマンティック理解をもたらす。
定量的には、作業は言語誘導タスクの成功率を改善する。
同時に、私たちはインスタンスをより明確に識別し、基礎的なモデルや言語、画像に整合した埋め込みを活用して、クローズドセットのアプローチでは識別できないオブジェクトを識別する能力も質的に観察しています。
Project Page - https://smart-wheelchair-rrc.github.io/o3d-sim-webpage
関連論文リスト
- IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。
マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。
次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文 参考訳(メタデータ) (2025-04-09T12:36:48Z) - UFO: A Unified Approach to Fine-grained Visual Perception via Open-ended Language Interface [25.898592418636603]
textbfOpen-ended言語インターフェースを通じて、textbfFineの粒度の視覚的知覚タスクをTextbfUnifyするフレームワークである。
オブジェクトレベルの検出、ピクセルレベルのセグメンテーション、イメージレベルの視覚言語タスクを単一のモデルに統合する。
私たちのフレームワークは、きめ細かい認識と視覚言語タスクのギャップを埋め、アーキテクチャ設計とトレーニング戦略を大幅に単純化します。
論文 参考訳(メタデータ) (2025-03-03T09:27:24Z) - RefMask3D: Language-Guided Transformer for 3D Referring Segmentation [32.11635464720755]
RefMask3Dは、総合的なマルチモーダル機能インタラクションと理解を探求することを目的としている。
RefMask3Dは、挑戦的なScanReferデータセットにおいて、3.16% mIoUの大きなマージンで、従来の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-25T17:58:03Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - DesCo: Learning Object Recognition with Rich Language Descriptions [93.8177229428617]
視覚言語アプローチの最近の発展は、言語指導から視覚認識モデルを学習するパラダイムシフトを引き起こしている。
本稿では,リッチ言語記述を用いたオブジェクト認識モデル学習のための記述条件付き(DesCo)パラダイムを提案する。
論文 参考訳(メタデータ) (2023-06-24T21:05:02Z) - Vision-Language Pre-training with Object Contrastive Learning for 3D
Scene Understanding [47.48443919164377]
3次元視覚言語下流タスクを柔軟に伝達するために,視覚言語事前学習フレームワークを提案する。
本稿では,セマンティック3次元シーン理解における3つの共通課題について検討し,事前学習モデルに対する重要な洞察を導出する。
実験は3つの3次元視覚言語タスクにおけるフレームワークの優れた性能を検証する。
論文 参考訳(メタデータ) (2023-05-18T05:25:40Z) - Paparazzi: A Deep Dive into the Capabilities of Language and Vision
Models for Grounding Viewpoint Descriptions [4.026600887656479]
現状の言語とビジョンモデルであるCLIPが、3Dオブジェクトの視点記述を基盤として利用できるかどうかを考察する。
本稿では,3次元物体の周囲に回転するカメラを用いて異なる視点から画像を生成する評価フレームワークを提案する。
事前訓練されたCLIPモデルは、ほとんどの標準ビューでは性能が良くないことがわかった。
論文 参考訳(メタデータ) (2023-02-13T15:18:27Z) - Joint Language Semantic and Structure Embedding for Knowledge Graph
Completion [66.15933600765835]
本稿では,知識三重項の自然言語記述と構造情報とを共同で組み込むことを提案する。
本手法は,学習済み言語モデルを微調整することで,完了作業のための知識グラフを埋め込む。
各種知識グラフベンチマーク実験により,本手法の最先端性能を実証した。
論文 参考訳(メタデータ) (2022-09-19T02:41:02Z) - CLEAR: Improving Vision-Language Navigation with Cross-Lingual,
Environment-Agnostic Representations [98.30038910061894]
VLN(Vision-and-Language Navigation)タスクでは、エージェントが言語命令に基づいて環境をナビゲートする必要がある。
CLEAR: 言語横断表現と環境非依存表現を提案する。
我々の言語と視覚表現は、Room-to-Room and Cooperative Vision-and-Dialogue Navigationタスクにうまく転送できる。
論文 参考訳(メタデータ) (2022-07-05T17:38:59Z) - Semantic Exploration from Language Abstractions and Pretrained
Representations [23.02024937564099]
効果的な探究は強化学習(RL)の課題である
意味論的に意味のある状態抽象化を用いて新規性を定義する。
自然画像キャプションデータセットに基づく視覚言語表現の評価を行った。
論文 参考訳(メタデータ) (2022-04-08T17:08:00Z) - Understanding Synonymous Referring Expressions via Contrastive Features [105.36814858748285]
画像とオブジェクトインスタンスレベルでのコントラスト機能を学ぶためのエンドツーエンドのトレーニング可能なフレームワークを開発しています。
提案アルゴリズムをいくつかのベンチマークデータセットで評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2021-04-20T17:56:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。