論文の概要: Constrained Robotic Navigation on Preferred Terrains Using LLMs and Speech Instruction: Exploiting the Power of Adverbs
- arxiv url: http://arxiv.org/abs/2404.02294v1
- Date: Tue, 2 Apr 2024 20:46:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 19:19:01.539186
- Title: Constrained Robotic Navigation on Preferred Terrains Using LLMs and Speech Instruction: Exploiting the Power of Adverbs
- Title(参考訳): LLMと音声指導を用いた選好地での制約付きロボットナビゲーション:副詞の発散
- Authors: Faraz Lotfi, Farnoosh Faraji, Nikhil Kakodkar, Travis Manderson, David Meger, Gregory Dudek,
- Abstract要約: 本稿では,生成AIを用いた地図のないオフロードナビゲーションにおける大規模言語モデルの活用について検討する。
本稿では,ロボットがWhisperを通じてテキストに変換された音声命令を受信し,ランドマークや好地,重要な副詞を抽出し,制限されたナビゲーションのための速度設定に変換する手法を提案する。
- 参考スコア(独自算出の注目度): 29.507826791509384
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper explores leveraging large language models for map-free off-road navigation using generative AI, reducing the need for traditional data collection and annotation. We propose a method where a robot receives verbal instructions, converted to text through Whisper, and a large language model (LLM) model extracts landmarks, preferred terrains, and crucial adverbs translated into speed settings for constrained navigation. A language-driven semantic segmentation model generates text-based masks for identifying landmarks and terrain types in images. By translating 2D image points to the vehicle's motion plane using camera parameters, an MPC controller can guides the vehicle towards the desired terrain. This approach enhances adaptation to diverse environments and facilitates the use of high-level instructions for navigating complex and challenging terrains.
- Abstract(参考訳): 本稿では、生成AIを用いた地図のないオフロードナビゲーションにおける大規模言語モデルの活用について検討し、従来のデータ収集やアノテーションの必要性を低減する。
本稿では,ロボットがWhisperを通じてテキストに変換された音声命令を受信する手法を提案する。また,大規模言語モデル(LLM)モデルではランドマーク,好ましい地形,および制約されたナビゲーションのための速度設定に変換された重要な副詞を抽出する。
言語駆動セマンティックセグメンテーションモデルは、画像中のランドマークや地形のタイプを特定するためのテキストベースのマスクを生成する。
カメラパラメータを用いて2Dイメージポイントを車両の運動面に変換することにより、MPCコントローラは車両を所望の地形へ誘導することができる。
このアプローチは、多様な環境への適応を促進し、複雑で困難な地形をナビゲートするための高レベルな指示の使用を促進する。
関連論文リスト
- Towards Natural Language-Guided Drones: GeoText-1652 Benchmark with Spatial Relation Matching [60.645802236700035]
自然言語コマンドを通じてドローンをナビゲートすることは、アクセス可能なマルチモーダルデータセットが不足しているため、依然として難しい。
我々は新しい自然言語誘導ジオローカライゼーションベンチマークGeoText-1652を紹介する。
このデータセットは、インタラクティブなヒューマンコンピュータプロセスを通じて体系的に構築される。
論文 参考訳(メタデータ) (2023-11-21T17:52:30Z) - Towards Automatic Satellite Images Captions Generation Using Large
Language Models [0.5439020425819]
リモートセンシング画像のキャプションを自動的に収集するARSIC(Automatic Remote Sensing Image Captioning)を提案する。
また、事前学習された生成画像2テキストモデル(GIT)を用いて、リモートセンシング画像の高品質なキャプションを生成するベンチマークモデルを提案する。
論文 参考訳(メタデータ) (2023-10-17T16:45:47Z) - Interactive Navigation in Environments with Traversable Obstacles Using
Large Language and Vision-Language Models [14.871309526022516]
本稿では,大規模言語と視覚言語を用いた対話型ナビゲーションフレームワークを提案する。
我々は、微調整なしで効果的な経路計画を行うためのアクション対応コストマップを作成する。
すべての実験結果から,提案フレームワークの有効性と多様な環境への適応性が確認された。
論文 参考訳(メタデータ) (2023-10-13T05:59:03Z) - LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。
提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文 参考訳(メタデータ) (2023-10-11T20:52:30Z) - A New Path: Scaling Vision-and-Language Navigation with Synthetic
Instructions and Imitation Learning [70.14372215250535]
VLN(Vision-and-Language Navigation)の最近の研究は、RLエージェントを訓練して、フォトリアリスティックな環境で自然言語ナビゲーション命令を実行する。
人間の指導データが不足し、訓練環境の多様性が限られていることを考えると、これらのエージェントは複雑な言語基盤と空間言語理解に苦慮している。
我々は、密集した360度パノラマで捉えた500以上の屋内環境を取り、これらのパノラマを通して航法軌道を構築し、各軌道に対して視覚的に接地された指示を生成する。
4.2Mの命令-軌道対のデータセットは、既存の人間の注釈付きデータセットよりも2桁大きい。
論文 参考訳(メタデータ) (2022-10-06T17:59:08Z) - LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language,
Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。
本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文 参考訳(メタデータ) (2022-07-10T10:41:50Z) - Polyline Based Generative Navigable Space Segmentation for Autonomous
Visual Navigation [57.3062528453841]
ロボットが教師なしの方法で移動可能な空間分割を学習できるようにするための表現学習ベースのフレームワークを提案する。
提案するPSV-Netは,単一のラベルを使わずとも,高精度で視覚ナビゲーション可能な空間を学習可能であることを示す。
論文 参考訳(メタデータ) (2021-10-29T19:50:48Z) - Semantic Image Alignment for Vehicle Localization [111.59616433224662]
単眼カメラからのセマンティックセグメンテーションを用いた高密度セマンティックマップにおける車両位置推定手法を提案する。
既存の視覚的ローカライゼーションアプローチとは対照的に、システムは追加のキーポイント機能、手作りのローカライゼーションランドマーク抽出器、高価なLiDARセンサーを必要としない。
論文 参考訳(メタデータ) (2021-10-08T14:40:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。