論文の概要: Space-Aware Instruction Tuning: Dataset and Benchmark for Guide Dog Robots Assisting the Visually Impaired
- arxiv url: http://arxiv.org/abs/2502.07183v2
- Date: Wed, 12 Feb 2025 09:07:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:45:27.745461
- Title: Space-Aware Instruction Tuning: Dataset and Benchmark for Guide Dog Robots Assisting the Visually Impaired
- Title(参考訳): 空間認識型インストラクションチューニング:視覚障害者を支援するガイドドッグロボットのデータセットとベンチマーク
- Authors: ByungOk Han, Woo-han Yun, Beom-Su Seo, Jaehong Kim,
- Abstract要約: スペース・アウェア・インストラクション・チューニング(SAIT)データセットとスペース・アウェア・ベンチマーク(SA-Bench)を紹介する。
データ生成パイプラインは、3D空間と周囲の目的地への仮想パスに焦点を当てています。
本稿では,歩行指導におけるVLMの有効性を評価するための評価プロトコルを提案する。
- 参考スコア(独自算出の注目度): 0.2410625015892047
- License:
- Abstract: Guide dog robots offer promising solutions to enhance mobility and safety for visually impaired individuals, addressing the limitations of traditional guide dogs, particularly in perceptual intelligence and communication. With the emergence of Vision-Language Models (VLMs), robots are now capable of generating natural language descriptions of their surroundings, aiding in safer decision-making. However, existing VLMs often struggle to accurately interpret and convey spatial relationships, which is crucial for navigation in complex environments such as street crossings. We introduce the Space-Aware Instruction Tuning (SAIT) dataset and the Space-Aware Benchmark (SA-Bench) to address the limitations of current VLMs in understanding physical environments. Our automated data generation pipeline focuses on the virtual path to the destination in 3D space and the surroundings, enhancing environmental comprehension and enabling VLMs to provide more accurate guidance to visually impaired individuals. We also propose an evaluation protocol to assess VLM effectiveness in delivering walking guidance. Comparative experiments demonstrate that our space-aware instruction-tuned model outperforms state-of-the-art algorithms. We have fully open-sourced the SAIT dataset and SA-Bench, along with the related code, at https://github.com/byungokhan/Space-awareVLM
- Abstract(参考訳): ガイドドッグロボットは、視覚障害者の移動性と安全性を高めるための有望なソリューションを提供し、特に知覚知性とコミュニケーションにおいて、従来のガイドドッグの限界に対処する。
VLM(Vision-Language Models)の出現により、ロボットは周囲の自然言語記述を生成することができ、より安全な意思決定を支援することができるようになった。
しかし,既存のVLMでは空間的関係の正確な解釈と伝達が困難であり,道路横断などの複雑な環境でのナビゲーションに欠かせない。
物理環境理解における現在のVLMの限界に対処するため,スペース・アウェア・インストラクション・チューニング(SAIT)データセットとスペース・アウェア・ベンチマーク(SA-Bench)を導入している。
自動データ生成パイプラインは,3次元空間および周辺空間における目的地への仮想経路に着目し,環境理解の向上と視覚障害者へのより正確なガイダンスの提供を可能にする。
また,歩行指導におけるVLMの有効性を評価するための評価プロトコルを提案する。
比較実験により、我々の空間認識型命令調整モデルは最先端のアルゴリズムより優れていることが示された。
SAITデータセットとSA-Benchは、関連するコードとともに、https://github.com/byungokhan/Space-awareVLMで完全にオープンソース化しました。
関連論文リスト
- Visual Language Models as Operator Agents in the Space Domain [36.943670587532026]
VLM(Vision-Language Models)は、宇宙ミッションにおける自律的な制御と意思決定を強化する。
ソフトウェア環境では、複雑な軌道操作を行うために、VLMを用いてグラフィカルユーザインタフェースの視覚的なスクリーンショットを解釈する。
ハードウェアの分野では、衛星などの物理空間オブジェクトを検査・診断するためのカメラを備えたロボットシステムとVLMを統合する。
論文 参考訳(メタデータ) (2025-01-14T03:03:37Z) - Seeing with Partial Certainty: Conformal Prediction for Robotic Scene Recognition in Built Environments [6.295098866364597]
本稿では,VLMを用いた位置認識における不確実性の測定・調整を目的としたフレームワークであるSeing with partial Certainty(SwPC)を紹介する。
SwPCは、人間の助けを求めるリクエストを最小限に抑えつつ、位置認識に関する統計的保証を提供するために、共形予測の理論に基づいて構築されている。
論文 参考訳(メタデータ) (2025-01-09T03:50:00Z) - Aerial Vision-and-Language Navigation via Semantic-Topo-Metric Representation Guided LLM Reasoning [48.33405770713208]
本稿では,大規模言語モデル(LLM)をアクション予測のエージェントとして導入する,航空VLNタスクのエンドツーエンドフレームワークを提案する。
我々は, LLMの空間的推論能力を高めるために, セマンティック・トポ・メトリック表現(STMR)を開発した。
実環境およびシミュレーション環境で行った実験は,本手法の有効性とロバスト性を実証した。
論文 参考訳(メタデータ) (2024-10-11T03:54:48Z) - SpatialBot: Precise Spatial Understanding with Vision Language Models [12.67089704185187]
視覚言語モデル (VLM) は2次元画像理解において優れた性能を発揮している。
彼らはまだ、Embodied AIの基盤である空間的理解に苦戦している。
本稿では,RGB画像と深度画像の両方をフィードすることで,空間的理解を向上させるためのSpatialBotを提案する。
論文 参考訳(メタデータ) (2024-06-19T15:41:30Z) - SpatialRGPT: Grounded Spatial Reasoning in Vision Language Models [68.13636352687257]
VLMの空間知覚と推論能力を高めるために空間領域GPT(SpatialRGPT)を導入する。
推測中、ユーザが指定した領域の提案が提供されると、SpatialRGPTは相対的な方向と距離を正確に知覚できる。
本研究では,空間的推論タスクにおける局所的プロンプトと非局所的プロンプトの双方において,空間的RGPTにより性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-06-03T17:59:06Z) - PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs [140.14239499047977]
視覚言語モデル(VLM)は、論理的推論から視覚的理解に至るまで、様々なタスクにわたって印象的な能力を示している。
PIVOT(Prompting with Iterative Visual Optimization)と呼ばれる新しい視覚的プロンプト手法を提案する。
私たちのアプローチは、ロボットのトレーニングデータやさまざまな環境でのナビゲーション、その他の能力なしに、ロボットシステムのゼロショット制御を可能にします。
論文 参考訳(メタデータ) (2024-02-12T18:33:47Z) - SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning
Capabilities [59.39858959066982]
空間的関係についての理解と推論は、視覚質問応答(VQA)とロボット工学の基本的な能力である。
我々は,1000万枚の実画像に対して,最大20億個のVQAサンプルをスケール可能な3次元空間VQAデータ自動生成フレームワークを開発した。
このようなデータに基づいてVLMを訓練することにより、定性的空間的VQAと定量的空間的VQAの両方において、その能力を大幅に向上する。
論文 参考訳(メタデータ) (2024-01-22T18:01:01Z) - Voila-A: Aligning Vision-Language Models with User's Gaze Attention [56.755993500556734]
視覚言語モデル(VLM)を導くために,人間の注意の代用として視線情報を導入する。
本稿では,視線アライメントのための新しいアプローチであるVoila-Aを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:34:01Z) - Visual-Language Navigation Pretraining via Prompt-based Environmental
Self-exploration [83.96729205383501]
本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。
我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
論文 参考訳(メタデータ) (2022-03-08T11:01:24Z) - Trajectory annotation using sequences of spatial perception [0.0]
近い将来、より多くのマシンが人間の空間の近くでタスクを実行するようになる。
この作業は、この課題に対処するための基盤を構築します。
本稿では,ニューラルオートエンコーディングに基づく教師なし学習手法を提案する。
論文 参考訳(メタデータ) (2020-04-11T12:22:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。