論文の概要: Grounding Linguistic Commands to Navigable Regions
- arxiv url: http://arxiv.org/abs/2112.13031v1
- Date: Fri, 24 Dec 2021 11:11:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-28 16:46:33.310184
- Title: Grounding Linguistic Commands to Navigable Regions
- Title(参考訳): 航行可能な地域への接地言語命令
- Authors: Nivedita Rufus, Kanishk Jain, Unni Krishnan R Nair, Vineet Gandhi, K
Madhava Krishna
- Abstract要約: 本稿では,自律走行車における航法可能地域(RNR)の新たな課題を提案する。
RNRは、言語命令に基づくナビゲーションの関心領域の接地に焦点を当てている。
既存のTalk2carデータセットを拡張した新しいデータセットであるTalk2Car-RegSegを導入する。
- 参考スコア(独自算出の注目度): 20.368898881882547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans have a natural ability to effortlessly comprehend linguistic commands
such as "park next to the yellow sedan" and instinctively know which region of
the road the vehicle should navigate. Extending this ability to autonomous
vehicles is the next step towards creating fully autonomous agents that respond
and act according to human commands. To this end, we propose the novel task of
Referring Navigable Regions (RNR), i.e., grounding regions of interest for
navigation based on the linguistic command. RNR is different from Referring
Image Segmentation (RIS), which focuses on grounding an object referred to by
the natural language expression instead of grounding a navigable region. For
example, for a command "park next to the yellow sedan," RIS will aim to segment
the referred sedan, and RNR aims to segment the suggested parking region on the
road. We introduce a new dataset, Talk2Car-RegSeg, which extends the existing
Talk2car dataset with segmentation masks for the regions described by the
linguistic commands. A separate test split with concise manoeuvre-oriented
commands is provided to assess the practicality of our dataset. We benchmark
the proposed dataset using a novel transformer-based architecture. We present
extensive ablations and show superior performance over baselines on multiple
evaluation metrics. A downstream path planner generating trajectories based on
RNR outputs confirms the efficacy of the proposed framework.
- Abstract(参考訳): 人間は「黄色いセダンの隣の公園」のような言語コマンドを熱心に理解し、車両が走行すべき道路のどの地域を直感的に知ることができる。
この能力を自動運転車に拡張することは、人間の指示に応えて行動する完全自律型エージェントを作るための次のステップだ。
そこで本研究では,ナビゲーション可能な地域 (RNR) の参照という新たな課題,すなわち言語命令に基づくナビゲーションに対する関心領域の接地について提案する。
RNRは参照イメージセグメンテーション(RIS)とは違い、ナビゲーション可能な領域を接地するのではなく、自然言語表現によって参照されるオブジェクトを接地することに焦点を当てている。
例えば、「黄色いセダンの隣の駐車場」というコマンドは、RISが参照するセダンを分割することを目的としており、RNRが提案する駐車エリアを道路上に分割することを目的としている。
既存のtalk2carデータセットを言語コマンドで記述された領域のセグメンテーションマスクで拡張する,新たなデータセットであるtalk2car-regsegを紹介する。
データセットの実用性を評価するために、簡潔なmanoeuvre指向のコマンドで別々のテストスプリットが提供されます。
提案するデータセットを新しいトランスフォーマーベースのアーキテクチャを用いてベンチマークする。
複数の評価基準において,広範なアブレーションを行い,ベースラインよりも優れた性能を示す。
RNR出力に基づく下流経路プランナが提案手法の有効性を確認した。
関連論文リスト
- PRET: Planning with Directed Fidelity Trajectory for Vision and Language Navigation [30.710806048991923]
視覚と言語ナビゲーションは、エージェントが自然言語の指示に従ってナビゲートする必要があるタスクである。
近年の手法では、各ステップで構築されたトポロジーマップのサブゴールを予測し、長期的な行動計画を可能にする。
本稿では,指示と指向性軌道のアライメントを考慮し,ナビゲーション計画を容易にする方法を提案する。
論文 参考訳(メタデータ) (2024-07-16T08:22:18Z) - Constrained Robotic Navigation on Preferred Terrains Using LLMs and Speech Instruction: Exploiting the Power of Adverbs [29.507826791509384]
本稿では,生成AIを用いた地図のないオフロードナビゲーションにおける大規模言語モデルの活用について検討する。
本稿では,ロボットがWhisperを通じてテキストに変換された音声命令を受信し,ランドマークや好地,重要な副詞を抽出し,制限されたナビゲーションのための速度設定に変換する手法を提案する。
論文 参考訳(メタデータ) (2024-04-02T20:46:13Z) - Towards Natural Language-Guided Drones: GeoText-1652 Benchmark with Spatial Relation Matching [60.645802236700035]
自然言語コマンドを通じてドローンをナビゲートすることは、アクセス可能なマルチモーダルデータセットが不足しているため、依然として難しい。
我々は新しい自然言語誘導ジオローカライゼーションベンチマークGeoText-1652を紹介する。
このデータセットは、インタラクティブなヒューマンコンピュータプロセスを通じて体系的に構築される。
論文 参考訳(メタデータ) (2023-11-21T17:52:30Z) - Language-Guided 3D Object Detection in Point Cloud for Autonomous
Driving [91.91552963872596]
我々は,LiDARグラウンディングと呼ばれるマルチモーダルな視覚的グラウンドニングタスクを提案する。
言語特徴を持つLiDARベースの物体検出器を共同で学習し、検出器から直接対象領域を予測する。
私たちの研究は、LiDARベースの接地作業に関する深い洞察を提供しており、自動運転コミュニティにとって有望な方向性を示すものと期待しています。
論文 参考訳(メタデータ) (2023-05-25T06:22:10Z) - SLAN: Self-Locator Aided Network for Cross-Modal Understanding [89.20623874655352]
モーダル理解タスクのための自己ローカレータ支援ネットワーク(SLAN)を提案する。
SLANは、異なるテキストで条件付けられた関心領域をローカライズするための領域フィルタと領域アダプタから構成される。
5つのクロスモーダル理解タスクにおいて、かなり競争力のある結果が得られる。
論文 参考訳(メタデータ) (2022-11-28T11:42:23Z) - Ground then Navigate: Language-guided Navigation in Dynamic Scenes [13.870303451896248]
屋外環境での自律運転における視覚・言語ナビゲーション(VLN)問題について検討する。
テキストコマンドに対応するナビゲーション可能な領域を明示的にグラウンドすることで、この問題を解決する。
提案手法の有効性を検証するために, 定性的かつ定量的な実験結果を提供する。
論文 参考訳(メタデータ) (2022-09-24T09:51:09Z) - Grounding Commands for Autonomous Vehicles via Layer Fusion with
Region-specific Dynamic Layer Attention [24.18160842892381]
本研究では, 車両の言語接地問題について検討し, 利用者からの自然言語による視覚領域のローカライズを目的とする。
我々の手法はより正確な領域を予測し、最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-03-14T02:37:11Z) - Connecting Language and Vision for Natural Language-Based Vehicle
Retrieval [77.88818029640977]
本稿では,言語記述という新たなモダリティを,興味ある車両の探索に適用する。
言語と視覚を結びつけるために,トランスフォーマーに基づく言語モデルを用いて最先端の視覚モデルを共同で訓練することを提案する。
提案手法は第5回AIシティチャレンジで1位を獲得し、18.69%のMRRの精度で競争性能を得た。
論文 参考訳(メタデータ) (2021-05-31T11:42:03Z) - GANav: Group-wise Attention Network for Classifying Navigable Regions in
Unstructured Outdoor Environments [54.21959527308051]
本稿では,RGB画像から,オフロード地形および非構造環境における安全かつ航行可能な領域を識別する新しい学習手法を提案する。
本手法は,粒度の粗いセマンティックセグメンテーションを用いて,そのナビビリティレベルに基づいて地形分類群を分類する。
RUGD と RELLIS-3D のデータセットを広範囲に評価することにより,我々の学習アルゴリズムがナビゲーションのためのオフロード地形における視覚知覚の精度を向上させることを示す。
論文 参考訳(メタデータ) (2021-03-07T02:16:24Z) - Commands 4 Autonomous Vehicles (C4AV) Workshop Summary [91.92872482200018]
本稿では,最近のEmphTalk2Carデータセットに基づいて,EmphCommands for autonomous Vehicles (C4AV)チャレンジの結果について述べる。
我々は、トップパフォーマンスモデルを成功させる側面を特定し、それらを視覚的なグラウンド化のために既存の最先端モデルと関連付ける。
論文 参考訳(メタデータ) (2020-09-18T12:33:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。