論文の概要: Generating Contextually-Relevant Navigation Instructions for Blind and Low Vision People
- arxiv url: http://arxiv.org/abs/2407.08219v1
- Date: Thu, 11 Jul 2024 06:40:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 18:39:04.621032
- Title: Generating Contextually-Relevant Navigation Instructions for Blind and Low Vision People
- Title(参考訳): 盲人・低視力者のための文脈関連ナビゲーション命令の生成
- Authors: Zain Merchant, Abrar Anwar, Emily Wang, Souti Chattopadhyay, Jesse Thomason,
- Abstract要約: 不慣れな環境をナビゲートすることは、盲目と低視(BLV)の個人にとって大きな課題となる。
キッチンを探索したり、屋外でナビゲートしたりするなど、さまざまなシナリオで画像と目標のデータセットを構築します。
- 参考スコア(独自算出の注目度): 9.503205949175966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Navigating unfamiliar environments presents significant challenges for blind and low-vision (BLV) individuals. In this work, we construct a dataset of images and goals across different scenarios such as searching through kitchens or navigating outdoors. We then investigate how grounded instruction generation methods can provide contextually-relevant navigational guidance to users in these instances. Through a sighted user study, we demonstrate that large pretrained language models can produce correct and useful instructions perceived as beneficial for BLV users. We also conduct a survey and interview with 4 BLV users and observe useful insights on preferences for different instructions based on the scenario.
- Abstract(参考訳): 不慣れな環境をナビゲートすることは、盲目と低視(BLV)の個人にとって大きな課題となる。
本研究では,キッチンの探索や屋外でのナビゲーションなど,さまざまなシナリオを対象とした画像と目標のデータセットを構築した。
そこで本研究では,これらのインスタンスのユーザに対して,コンテキストに依存したナビゲーション指導を行うための基底命令生成手法について検討する。
視認されたユーザスタディを通じて、大規模な事前学習された言語モデルがBLVユーザにとって有益であると認識された正確で有用な命令を生成できることを実証する。
また、4人のBLVユーザを対象に調査とインタビューを行い、シナリオに基づいて異なる指示に対する好みに関する有用な洞察を観察する。
関連論文リスト
- Guide-LLM: An Embodied LLM Agent and Text-Based Topological Map for Robotic Guidance of People with Visual Impairments [1.18749525824656]
Guide-LLMは、大きな屋内環境をナビゲートする際の視覚障害者(PVI)を支援するために設計されたテキストベースのエージェントである。
我々のアプローチは,LLMがグローバルパスを計画できる新しいテキストベースのトポロジマップを特徴としている。
シミュレーション実験は、PVIを誘導するシステムの有効性を実証し、その可能性を補助技術の重要な進歩として示している。
論文 参考訳(メタデータ) (2024-10-28T01:58:21Z) - Navigation Instruction Generation with BEV Perception and Large Language Models [60.455964599187205]
本稿では,Bird's Eye View(BEV)機能をMLLM(Multi-Modal Large Language Models)に組み込んだBEVインストラクタを提案する。
具体的には、BEVインストラクタは、BEVとパースペクティブ特徴を融合させることにより、3D環境の理解のためのパースペクティブBEVを構築する。
パースペクティブ-BEVプロンプトに基づいて、BEVインストラクタはさらにインスタンス誘導反復精製パイプラインを採用し、プログレッシブな方法で命令を改善する。
論文 参考訳(メタデータ) (2024-07-21T08:05:29Z) - A Multi-Modal Foundation Model to Assist People with Blindness and Low Vision in Environmental Interaction [25.6637754177118]
視覚障害と低視力(pBLV)を持つ人は、総合的なシーン認識と正確な物体識別に関して、重大な課題に遭遇する。
pBLVの視覚知覚を高めるために,大規模な視覚言語モデルを活用する先駆的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-31T06:56:51Z) - LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。
提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文 参考訳(メタデータ) (2023-10-11T20:52:30Z) - VELMA: Verbalization Embodiment of LLM Agents for Vision and Language
Navigation in Street View [81.58612867186633]
視覚と言語ナビゲーション(VLN)は、視覚的および自然言語の理解と空間的および時間的推論能力を必要とする。
VELMAは,2つのコンテキスト内例のみを用いて,ストリートビューでのナビゲーション指示に従うことができることを示す。
数千の例でLLMエージェントをさらに微調整し、従来の2つのデータセットのタスク完了に対する25%-30%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2023-07-12T11:08:24Z) - Bridging the visual gap in VLN via semantically richer instructions [3.5789352263336847]
現状のモデルでは、限られた、あるいは全く視覚的データを受け取らない場合、深刻な影響を受けないことが示される。
より明示的な視覚情報の導入を促進する新しいデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-10-27T15:58:07Z) - Counterfactual Cycle-Consistent Learning for Instruction Following and
Generation in Vision-Language Navigation [172.15808300686584]
本稿では,2つのタスクを同時に学習し,それぞれのトレーニングを促進するために本質的な相関性を利用するアプローチについて述べる。
提案手法は,様々な追従モデルの性能を改善し,正確なナビゲーション命令を生成する。
論文 参考訳(メタデータ) (2022-03-30T18:15:26Z) - Contrastive Instruction-Trajectory Learning for Vision-Language
Navigation [66.16980504844233]
視覚言語ナビゲーション(VLN)タスクでは、エージェントが自然言語の指示でターゲットに到達する必要がある。
先行研究は、命令-軌道対間の類似点と相違点を識別できず、サブ命令の時間的連続性を無視する。
本稿では、類似したデータサンプル間の分散と、異なるデータサンプル間の分散を探索し、ロバストなナビゲーションのための独特な表現を学習するContrastive Instruction-Trajectory Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-08T06:32:52Z) - Know What and Know Where: An Object-and-Room Informed Sequential BERT
for Indoor Vision-Language Navigation [120.90387630691816]
VLN(Vision-and-Language Navigation)は、自然言語命令と写真リアリスティックパノラマのセットに基づいて、エージェントが遠隔地へ移動する必要がある。
既存の手法の多くは、各パノラマの命令と離散ビューで単語をエンコーディングの最小単位とする。
視覚知覚と言語指示を同一のきめ細かいレベルで符号化するオブジェクトインフォームド・シーケンシャルBERTを提案する。
論文 参考訳(メタデータ) (2021-04-09T02:44:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。