Fugu-MT 論文翻訳(概要): Grounding Commands for Autonomous Vehicles via Layer Fusion with Region-specific Dynamic Layer Attention

論文の概要: Grounding Commands for Autonomous Vehicles via Layer Fusion with Region-specific Dynamic Layer Attention

arxiv url: http://arxiv.org/abs/2203.06822v1
Date: Mon, 14 Mar 2022 02:37:11 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-15 14:21:04.406542
Title: Grounding Commands for Autonomous Vehicles via Layer Fusion with Region-specific Dynamic Layer Attention
Title（参考訳）: 領域特異的動層注意を伴う層融合による自律走行車両の接地指令
Authors: Hou Pong Chan, Mingxi Guo, Cheng-Zhong Xu
Abstract要約: 本研究では, 車両の言語接地問題について検討し, 利用者からの自然言語による視覚領域のローカライズを目的とする。我々の手法はより正確な領域を予測し、最先端の手法より優れている。
参考スコア（独自算出の注目度）: 24.18160842892381
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Grounding a command to the visual environment is an essential ingredient for interactions between autonomous vehicles and humans. In this work, we study the problem of language grounding for autonomous vehicles, which aims to localize a region in a visual scene according to a natural language command from a passenger. Prior work only employs the top layer representations of a vision-and-language pre-trained model to predict the region referred to by the command. However, such a method omits the useful features encoded in other layers, and thus results in inadequate understanding of the input scene and command. To tackle this limitation, we present the first layer fusion approach for this task. Since different visual regions may require distinct types of features to disambiguate them from each other, we further propose the region-specific dynamic (RSD) layer attention to adaptively fuse the multimodal information across layers for each region. Extensive experiments on the Talk2Car benchmark demonstrate that our approach helps predict more accurate regions and outperforms state-of-the-art methods.
Abstract（参考訳）: 視覚環境への指令の接地は、自律走行車と人間の相互作用に不可欠な要素である。本研究では,乗客からの自然言語指示に基づき,視覚領域の局所化を目的とした自律走行車における言語接地問題について検討する。以前の作業では、コマンドによって参照される領域を予測するために、視覚と言語による事前訓練モデルの上位層表現のみを使用する。しかし、このような方法は他のレイヤにエンコードされる有用な機能を省略し、入力シーンとコマンドの理解が不十分になる。この制限に対処するため,本課題に対する第1層融合手法を提案する。異なる視覚領域は互いに曖昧にするために異なるタイプの特徴を必要とする可能性があるため、各領域の層をまたいだマルチモーダル情報を適応的に融合させるために、地域固有の動的(RSD)層アテンションを提案する。 talk2carベンチマークに関する広範囲な実験は、我々のアプローチがより正確な領域を予測し、最先端のメソッドを上回ることを証明している。

関連論文リスト

Contact-Aware Amodal Completion for Human-Object Interaction via Multi-Regional Inpainting [4.568580817155409]
コンピュータビジョンとロボット工学における人間と物体の相互作用を理解するためには、アモーダル・コンプリートが不可欠である。我々は,物理知識と,HOI用に設計された特殊多領域塗装技術を用いた新しいアプローチを開発した。実験の結果,本手法はHOIシナリオにおける既存手法よりも有意に優れていた。
論文参考訳（メタデータ） (2025-08-01T08:33:45Z)
Boosting Single-domain Generalized Object Detection via Vision-Language Knowledge Interaction [4.692621855184482]
Single-Domain Generalized Object Detection (S-DGOD)は、単一のソースドメイン上でオブジェクト検出をトレーニングすることを目的としている。最近のS-DGODアプローチは、事前学習された視覚言語知識を利用して、視覚領域を越えて不変な特徴学習を導く。本稿では,S-DGODタスクの一般化および識別的地域特徴をキャプチャするクロスモーダル特徴学習手法を提案する。
論文参考訳（メタデータ） (2025-04-27T02:55:54Z)
GOMAA-Geo: GOal Modality Agnostic Active Geo-localization [49.599465495973654]
エージェントが空中ナビゲーション中に観測された一連の視覚的手がかりを用いて、複数の可能なモダリティによって特定されたターゲットを見つけるという、アクティブなジオローカライゼーション(AGL)の課題を考察する。 GOMAA-Geo は、ゴールモダリティ間のゼロショット一般化のためのゴールモダリティアクティブなジオローカライゼーションエージェントである。
論文参考訳（メタデータ） (2024-06-04T02:59:36Z)
DynRefer: Delving into Region-level Multi-modality Tasks via Dynamic Resolution [54.05367433562495]
領域レベルのマルチモーダリティ手法は、参照画像領域を人間の好む言語記述に変換することができる。残念ながら、固定的な視覚入力を用いた既存の手法の多くは、正確な言語記述を見つけるための解像度適応性に欠けていたままである。そこで我々はDynReferと呼ばれるダイナミック・レゾリューション・アプローチを提案し、高精度な領域レベルの参照を追求する。
論文参考訳（メタデータ） (2024-05-25T05:44:55Z)
Mapping High-level Semantic Regions in Indoor Environments without Object Recognition [50.624970503498226]
本研究では,屋内環境における埋め込みナビゲーションによる意味領域マッピング手法を提案する。地域識別を実現するために,視覚言語モデルを用いて地図作成のためのシーン情報を提供する。グローバルなフレームにエゴセントリックなシーン理解を投影することにより、提案手法は各場所の可能な領域ラベル上の分布としてのセマンティックマップを生成する。
論文参考訳（メタデータ） (2024-03-11T18:09:50Z)
Language-Guided 3D Object Detection in Point Cloud for Autonomous Driving [91.91552963872596]
我々は,LiDARグラウンディングと呼ばれるマルチモーダルな視覚的グラウンドニングタスクを提案する。言語特徴を持つLiDARベースの物体検出器を共同で学習し、検出器から直接対象領域を予測する。私たちの研究は、LiDARベースの接地作業に関する深い洞察を提供しており、自動運転コミュニティにとって有望な方向性を示すものと期待しています。
論文参考訳（メタデータ） (2023-05-25T06:22:10Z)
SLAN: Self-Locator Aided Network for Cross-Modal Understanding [89.20623874655352]
モーダル理解タスクのための自己ローカレータ支援ネットワーク(SLAN)を提案する。 SLANは、異なるテキストで条件付けられた関心領域をローカライズするための領域フィルタと領域アダプタから構成される。 5つのクロスモーダル理解タスクにおいて、かなり競争力のある結果が得られる。
論文参考訳（メタデータ） (2022-11-28T11:42:23Z)
Point-Level Region Contrast for Object Detection Pre-Training [147.47349344401806]
本稿では,物体検出作業のための自己教師付き事前学習手法である点レベル領域コントラストを提案する。提案手法は,異なる領域から個々の点対を直接抽出することにより,コントラスト学習を行う。領域ごとの集約表現と比較すると,入力領域の品質の変化に対して,我々のアプローチはより堅牢である。
論文参考訳（メタデータ） (2022-02-09T18:56:41Z)
Grounding Linguistic Commands to Navigable Regions [20.368898881882547]
本稿では,自律走行車における航法可能地域(RNR)の新たな課題を提案する。 RNRは、言語命令に基づくナビゲーションの関心領域の接地に焦点を当てている。既存のTalk2carデータセットを拡張した新しいデータセットであるTalk2Car-RegSegを導入する。
論文参考訳（メタデータ） (2021-12-24T11:11:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。