論文の概要: Automated Data Curation Using GPS & NLP to Generate Instruction-Action Pairs for Autonomous Vehicle Vision-Language Navigation Datasets
- arxiv url: http://arxiv.org/abs/2505.03174v1
- Date: Tue, 06 May 2025 04:38:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.207394
- Title: Automated Data Curation Using GPS & NLP to Generate Instruction-Action Pairs for Autonomous Vehicle Vision-Language Navigation Datasets
- Title(参考訳): GPSとNLPを用いた自動車両ビジョンランゲージナビゲーションデータセットのインストラクション・アクション・ペア生成のための自動データキュレーション
- Authors: Guillermo Roque, Erika Maquiling, Jose Giovanni Tapia Lopez, Ross Greer,
- Abstract要約: 本稿では,モバイルアプリケーションGlobal Positioning System(GPS)参照と自然言語処理(NLP)を使用して,大量の命令と応答を自動生成する可能性について検討する。
パイロットデータ収集では、様々な目的地へ運転し、GPSアプリケーションから音声指示を収集することにより、多様な指示の集合を収集・分類する手段を実証する。
我々は収集したGPS音声命令を8つの異なる分類に分類し、自由に利用できるモバイルアプリケーションから利用できるコマンドの幅と参照度を強調した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction-Action (IA) data pairs are valuable for training robotic systems, especially autonomous vehicles (AVs), but having humans manually annotate this data is costly and time-inefficient. This paper explores the potential of using mobile application Global Positioning System (GPS) references and Natural Language Processing (NLP) to automatically generate large volumes of IA commands and responses without having a human generate or retroactively tag the data. In our pilot data collection, by driving to various destinations and collecting voice instructions from GPS applications, we demonstrate a means to collect and categorize the diverse sets of instructions, further accompanied by video data to form complete vision-language-action triads. We provide details on our completely automated data collection prototype system, ADVLAT-Engine. We characterize collected GPS voice instructions into eight different classifications, highlighting the breadth of commands and referentialities available for curation from freely available mobile applications. Through research and exploration into the automation of IA data pairs using GPS references, the potential to increase the speed and volume at which high-quality IA datasets are created, while minimizing cost, can pave the way for robust vision-language-action (VLA) models to serve tasks in vision-language navigation (VLN) and human-interactive autonomous systems.
- Abstract(参考訳): 命令・アクション(IA)データペアはロボットシステム、特に自律走行車(AV)の訓練に有用だが、人間が手動でアノテートすることは費用がかかり、非効率である。
本稿では,モバイルアプリケーションGlobal Positioning System(GPS)参照と自然言語処理(NLP)を使用して,人間がデータを生成したり,遡及的にタグ付けしたりすることなく,大量のIAコマンドやレスポンスを自動生成する可能性について検討する。
パイロットデータ収集では,GPSアプリケーションから様々な目的地へ運転し,音声による指示を収集することにより,多様な指示の集合を収集・分類する手段を実証し,さらに映像データに付随して完全な視覚-言語-アクション・トライアドを形成する。
完全自動データ収集プロトタイプシステムであるADVLAT-Engineについて詳述する。
我々は収集したGPS音声命令を8つの異なる分類に分類し、自由に利用できるモバイルアプリケーションから利用できるコマンドの幅と参照度を強調した。
GPSレファレンスを用いたIAデータペアの自動化の研究開発を通じて、高品質なIAデータセットが作成されるスピードとボリュームを向上する可能性があるが、コストを最小化しながら、視覚言語ナビゲーション(VLN)や人間の対話型自律システムにおいて、堅牢な視覚言語アクション(VLA)モデルへの道を開くことができる。
関連論文リスト
- CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving [1.727597257312416]
CoVLA(Comprehensive Vision-Language-Action)データセットは、80時間以上にわたる現実世界の運転ビデオで構成されている。
このデータセットは、堅牢で解釈可能で、データ駆動の自動運転システムのためのフレームワークを確立する。
論文 参考訳(メタデータ) (2024-08-19T09:53:49Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - AutoRT: Embodied Foundation Models for Large Scale Orchestration of Robotic Agents [109.3804962220498]
AutoRTは、人間の監督を最小限に抑えて、完全に見えないシナリオで運用ロボットの展開をスケールアップするシステムである。
われわれはAutoRTが複数の建物にまたがる20以上のロボットに指示を提示し、遠隔操作と自律ロボットポリシーを通じて77万個の実ロボットエピソードを収集するデモを行った。
実験により,AutoRTが収集した「未使用データ」は極めて多種多様であり,AutoRTのLLMを使用することで,人間の好みに合わせることができるデータ収集ロボットの指示が可能であることを実証した。
論文 参考訳(メタデータ) (2024-01-23T18:45:54Z) - GNM: A General Navigation Model to Drive Any Robot [67.40225397212717]
視覚に基づくナビゲーションのための一般的な目標条件付きモデルは、多くの異なるが構造的に類似したロボットから得られたデータに基づいて訓練することができる。
ロボット間の効率的なデータ共有に必要な設計決定について分析する。
我々は、訓練されたGNMを、下四極子を含む様々な新しいロボットに展開する。
論文 参考訳(メタデータ) (2022-10-07T07:26:41Z) - LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language,
Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。
本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文 参考訳(メタデータ) (2022-07-10T10:41:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。