論文の概要: Grounding Commands for Autonomous Vehicles via Layer Fusion with
Region-specific Dynamic Layer Attention
- arxiv url: http://arxiv.org/abs/2203.06822v1
- Date: Mon, 14 Mar 2022 02:37:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-15 14:21:04.406542
- Title: Grounding Commands for Autonomous Vehicles via Layer Fusion with
Region-specific Dynamic Layer Attention
- Title(参考訳): 領域特異的動層注意を伴う層融合による自律走行車両の接地指令
- Authors: Hou Pong Chan, Mingxi Guo, Cheng-Zhong Xu
- Abstract要約: 本研究では, 車両の言語接地問題について検討し, 利用者からの自然言語による視覚領域のローカライズを目的とする。
我々の手法はより正確な領域を予測し、最先端の手法より優れている。
- 参考スコア(独自算出の注目度): 24.18160842892381
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Grounding a command to the visual environment is an essential ingredient for
interactions between autonomous vehicles and humans. In this work, we study the
problem of language grounding for autonomous vehicles, which aims to localize a
region in a visual scene according to a natural language command from a
passenger. Prior work only employs the top layer representations of a
vision-and-language pre-trained model to predict the region referred to by the
command. However, such a method omits the useful features encoded in other
layers, and thus results in inadequate understanding of the input scene and
command. To tackle this limitation, we present the first layer fusion approach
for this task. Since different visual regions may require distinct types of
features to disambiguate them from each other, we further propose the
region-specific dynamic (RSD) layer attention to adaptively fuse the multimodal
information across layers for each region. Extensive experiments on the
Talk2Car benchmark demonstrate that our approach helps predict more accurate
regions and outperforms state-of-the-art methods.
- Abstract(参考訳): 視覚環境への指令の接地は、自律走行車と人間の相互作用に不可欠な要素である。
本研究では,乗客からの自然言語指示に基づき,視覚領域の局所化を目的とした自律走行車における言語接地問題について検討する。
以前の作業では、コマンドによって参照される領域を予測するために、視覚と言語による事前訓練モデルの上位層表現のみを使用する。
しかし、このような方法は他のレイヤにエンコードされる有用な機能を省略し、入力シーンとコマンドの理解が不十分になる。
この制限に対処するため,本課題に対する第1層融合手法を提案する。
異なる視覚領域は互いに曖昧にするために異なるタイプの特徴を必要とする可能性があるため、各領域の層をまたいだマルチモーダル情報を適応的に融合させるために、地域固有の動的(RSD)層アテンションを提案する。
talk2carベンチマークに関する広範囲な実験は、我々のアプローチがより正確な領域を予測し、最先端のメソッドを上回ることを証明している。
関連論文リスト
- Mapping High-level Semantic Regions in Indoor Environments without
Object Recognition [50.624970503498226]
本研究では,屋内環境における埋め込みナビゲーションによる意味領域マッピング手法を提案する。
地域識別を実現するために,視覚言語モデルを用いて地図作成のためのシーン情報を提供する。
グローバルなフレームにエゴセントリックなシーン理解を投影することにより、提案手法は各場所の可能な領域ラベル上の分布としてのセマンティックマップを生成する。
論文 参考訳(メタデータ) (2024-03-11T18:09:50Z) - Language-Guided 3D Object Detection in Point Cloud for Autonomous
Driving [91.91552963872596]
我々は,LiDARグラウンディングと呼ばれるマルチモーダルな視覚的グラウンドニングタスクを提案する。
言語特徴を持つLiDARベースの物体検出器を共同で学習し、検出器から直接対象領域を予測する。
私たちの研究は、LiDARベースの接地作業に関する深い洞察を提供しており、自動運転コミュニティにとって有望な方向性を示すものと期待しています。
論文 参考訳(メタデータ) (2023-05-25T06:22:10Z) - Learning Road Scene-level Representations via Semantic Region Prediction [11.518756759576657]
自動走行システムにおける2つの重要な課題、すなわち運転意図予測と自我中心画像からの危険物体識別に取り組む。
我々は、シーンレベルの表現は、エゴ車両周辺の交通シーンの高レベルな意味的および幾何学的表現を捉える必要があると論じる。
本稿では,新しい意味領域予測タスクと自動意味領域ラベリングアルゴリズムを用いてシーンレベルの表現を学習する。
論文 参考訳(メタデータ) (2023-01-02T15:13:30Z) - SLAN: Self-Locator Aided Network for Cross-Modal Understanding [89.20623874655352]
モーダル理解タスクのための自己ローカレータ支援ネットワーク(SLAN)を提案する。
SLANは、異なるテキストで条件付けられた関心領域をローカライズするための領域フィルタと領域アダプタから構成される。
5つのクロスモーダル理解タスクにおいて、かなり競争力のある結果が得られる。
論文 参考訳(メタデータ) (2022-11-28T11:42:23Z) - Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。
我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。
提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-23T19:06:53Z) - Point-Level Region Contrast for Object Detection Pre-Training [147.47349344401806]
本稿では,物体検出作業のための自己教師付き事前学習手法である点レベル領域コントラストを提案する。
提案手法は,異なる領域から個々の点対を直接抽出することにより,コントラスト学習を行う。
領域ごとの集約表現と比較すると,入力領域の品質の変化に対して,我々のアプローチはより堅牢である。
論文 参考訳(メタデータ) (2022-02-09T18:56:41Z) - Grounding Linguistic Commands to Navigable Regions [20.368898881882547]
本稿では,自律走行車における航法可能地域(RNR)の新たな課題を提案する。
RNRは、言語命令に基づくナビゲーションの関心領域の接地に焦点を当てている。
既存のTalk2carデータセットを拡張した新しいデータセットであるTalk2Car-RegSegを導入する。
論文 参考訳(メタデータ) (2021-12-24T11:11:44Z) - NEAT: Neural Attention Fields for End-to-End Autonomous Driving [59.60483620730437]
本稿では、模倣学習モデルの効率的な推論を可能にする新しい表現であるNEAT(NEural Attention Field)を提案する。
NEATは、Bird's Eye View (BEV) シーン座標の位置をウェイポイントとセマンティクスにマッピングする連続関数である。
有害な環境条件や挑戦的なシナリオを含む新たな評価環境では、NEATはいくつかの強いベースラインを上回り、特権のあるCARLA専門家と同等の運転スコアを達成している。
論文 参考訳(メタデータ) (2021-09-09T17:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。