論文の概要: Open-Vocabulary Semantic Segmentation with Uncertainty Alignment for Robotic Scene Understanding in Indoor Building Environments
- arxiv url: http://arxiv.org/abs/2503.23105v1
- Date: Sat, 29 Mar 2025 14:46:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:36:01.498858
- Title: Open-Vocabulary Semantic Segmentation with Uncertainty Alignment for Robotic Scene Understanding in Indoor Building Environments
- Title(参考訳): 室内建築環境におけるロボットシーン理解のための不確かさを考慮したオープンボキャブラリセマンティックセマンティックセマンティックセグメンテーション
- Authors: Yifan Xu, Vineet Kamat, Carol Menassa,
- Abstract要約: 視覚言語モデル(VLM)と大規模言語モデル(LLM)を利用したオープン語彙シーンセマンティックセマンティックセマンティクスと検出パイプラインを提案する。
提案手法は,オープンボキャブラリシーン分類のための「セグメント検出選択」フレームワークに従い,構築環境における補助ロボットの適応的・直感的なナビゲーションを可能にする。
- 参考スコア(独自算出の注目度): 6.295098866364597
- License:
- Abstract: The global rise in the number of people with physical disabilities, in part due to improvements in post-trauma survivorship and longevity, has amplified the demand for advanced assistive technologies to improve mobility and independence. Autonomous assistive robots, such as smart wheelchairs, require robust capabilities in spatial segmentation and semantic recognition to navigate complex built environments effectively. Place segmentation involves delineating spatial regions like rooms or functional areas, while semantic recognition assigns semantic labels to these regions, enabling accurate localization to user-specific needs. Existing approaches often utilize deep learning; however, these close-vocabulary detection systems struggle to interpret intuitive and casual human instructions. Additionally, most existing methods ignore the uncertainty of the scene recognition problem, leading to low success rates, particularly in ambiguous and complex environments. To address these challenges, we propose an open-vocabulary scene semantic segmentation and detection pipeline leveraging Vision Language Models (VLMs) and Large Language Models (LLMs). Our approach follows a 'Segment Detect Select' framework for open-vocabulary scene classification, enabling adaptive and intuitive navigation for assistive robots in built environments.
- Abstract(参考訳): 身体障害者の世界的な増加は、外傷後の生き残りと長寿の改善もあって、移動性や自立性を改善するための高度な補助技術への需要が増大している。
スマート車椅子のような自律的な補助ロボットは、複雑な構築された環境を効果的にナビゲートするために、空間的セグメンテーションと意味認識の堅牢な能力を必要とする。
配置セグメンテーションは、部屋や機能領域のような空間領域を記述することを含み、セマンティック認識はこれらの領域にセマンティックラベルを割り当て、ユーザ固有のニーズへの正確なローカライゼーションを可能にする。
既存のアプローチはディープラーニングを利用することが多いが、これらの近語彙検出システムは直感的でカジュアルな人間の指示を理解するのに苦労している。
さらに、既存のほとんどの手法はシーン認識の問題の不確実性を無視しており、特に曖昧で複雑な環境では成功率が低い。
これらの課題に対処するために,視覚言語モデル (VLM) と大規模言語モデル (LLM) を活用したオープン語彙シーンセマンティックセマンティックセマンティクスと検出パイプラインを提案する。
提案手法は,オープンボキャブラリシーン分類のための「セグメント検出選択」フレームワークに従い,構築環境における補助ロボットの適応的・直感的なナビゲーションを可能にする。
関連論文リスト
- From Open-Vocabulary to Vocabulary-Free Semantic Segmentation [78.62232202171919]
オープン語彙セマンティックセグメンテーションにより、モデルはトレーニングデータ以外の新しいオブジェクトカテゴリを識別できる。
現在のアプローチは依然として入力として手動で指定されたクラス名に依存しており、現実世界のアプリケーションに固有のボトルネックを生み出している。
この研究は、定義済みのクラス語彙を必要としない、語彙自由セマンティックパイプラインを提案する。
論文 参考訳(メタデータ) (2025-02-17T15:17:08Z) - Exploring Emerging Trends and Research Opportunities in Visual Place Recognition [28.76562316749074]
視覚に基づく認識は、コンピュータビジョンとロボティクスのコミュニティにおける長年の課題である。
ほとんどのローカライズ実装では、視覚的位置認識が不可欠である。
研究者は最近、視覚言語モデルに注意を向けている。
論文 参考訳(メタデータ) (2024-11-18T11:36:17Z) - Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation [69.01029651113386]
Embodied-RAGは、非パラメトリックメモリシステムによるエンボディエージェントのモデルを強化するフレームワークである。
コアとなるEmbodied-RAGのメモリはセマンティックフォレストとして構成され、言語記述を様々なレベルで詳細に保存する。
Embodied-RAGがRAGをロボット領域に効果的にブリッジし、250以上の説明とナビゲーションクエリをうまく処理できることを実証する。
論文 参考訳(メタデータ) (2024-09-26T21:44:11Z) - Sign language recognition based on deep learning and low-cost handcrafted descriptors [0.0]
単語間のあいまいさを避けるため,ジェスチャ実行においてできるだけ多くの言語パラメータを考慮することが重要である。
選択した技術がリアルであることを保証することが不可欠であり、高価な、侵入的、または低運動量のセンサーを避ける。
低コストなセンサと技術を用いた手話認識システムを提案する。
論文 参考訳(メタデータ) (2024-08-14T00:56:51Z) - Learning Where to Look: Self-supervised Viewpoint Selection for Active Localization using Geometrical Information [68.10033984296247]
本稿では, 位置決めの精度を高めるために, 視点選択の重要性を強調し, アクティブな位置決め領域について検討する。
私たちのコントリビューションは、リアルタイム操作用に設計されたシンプルなアーキテクチャ、自己教師付きデータトレーニング方法、および実世界のロボティクスアプリケーションに適した計画フレームワークにマップを一貫して統合する能力による、データ駆動型アプローチの使用に関するものです。
論文 参考訳(メタデータ) (2024-07-22T12:32:09Z) - O2V-Mapping: Online Open-Vocabulary Mapping with Neural Implicit Representation [9.431926560072412]
ボクセルをベースとした言語と幾何学的特徴を利用してオープン語彙場を作成するO2Vマッピングを提案する。
オープン語彙オブジェクトのローカライゼーションとセマンティックセグメンテーションの実験は、O2Vマッピングが言語シーンのオンライン構築を実現することを示す。
論文 参考訳(メタデータ) (2024-04-10T08:54:43Z) - Mapping High-level Semantic Regions in Indoor Environments without
Object Recognition [50.624970503498226]
本研究では,屋内環境における埋め込みナビゲーションによる意味領域マッピング手法を提案する。
地域識別を実現するために,視覚言語モデルを用いて地図作成のためのシーン情報を提供する。
グローバルなフレームにエゴセントリックなシーン理解を投影することにより、提案手法は各場所の可能な領域ラベル上の分布としてのセマンティックマップを生成する。
論文 参考訳(メタデータ) (2024-03-11T18:09:50Z) - A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - SCIM: Simultaneous Clustering, Inference, and Mapping for Open-World
Semantic Scene Understanding [34.19666841489646]
本研究では,ロボットが未知の環境を探索する際に,新しいセマンティッククラスを自律的に発見し,既知のクラスの精度を向上させる方法を示す。
セグメンテーションモデルを更新するための自己教師付き学習信号を生成するために,マッピングとクラスタリングのための一般的なフレームワークを開発する。
特に、デプロイ中にクラスタリングパラメータをどのように最適化するかを示し、複数の観測モダリティの融合が、以前の作業と比べて新しいオブジェクト発見を改善することを示す。
論文 参考訳(メタデータ) (2022-06-21T18:41:51Z) - Visual-Language Navigation Pretraining via Prompt-based Environmental
Self-exploration [83.96729205383501]
本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。
我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
論文 参考訳(メタデータ) (2022-03-08T11:01:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。