論文の概要: Commands 4 Autonomous Vehicles (C4AV) Workshop Summary
- arxiv url: http://arxiv.org/abs/2009.08792v1
- Date: Fri, 18 Sep 2020 12:33:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 02:24:50.887673
- Title: Commands 4 Autonomous Vehicles (C4AV) Workshop Summary
- Title(参考訳): コマンド4 自律走行車(C4AV)ワークショップ概要
- Authors: Thierry Deruyttere, Simon Vandenhende, Dusan Grujicic, Yu Liu, Luc Van
Gool, Matthew Blaschko, Tinne Tuytelaars, Marie-Francine Moens
- Abstract要約: 本稿では,最近のEmphTalk2Carデータセットに基づいて,EmphCommands for autonomous Vehicles (C4AV)チャレンジの結果について述べる。
我々は、トップパフォーマンスモデルを成功させる側面を特定し、それらを視覚的なグラウンド化のために既存の最先端モデルと関連付ける。
- 参考スコア(独自算出の注目度): 91.92872482200018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of visual grounding requires locating the most relevant region or
object in an image, given a natural language query. So far, progress on this
task was mostly measured on curated datasets, which are not always
representative of human spoken language. In this work, we deviate from recent,
popular task settings and consider the problem under an autonomous vehicle
scenario. In particular, we consider a situation where passengers can give
free-form natural language commands to a vehicle which can be associated with
an object in the street scene. To stimulate research on this topic, we have
organized the \emph{Commands for Autonomous Vehicles} (C4AV) challenge based on
the recent \emph{Talk2Car} dataset (URL:
https://www.aicrowd.com/challenges/eccv-2020-commands-4-autonomous-vehicles).
This paper presents the results of the challenge. First, we compare the used
benchmark against existing datasets for visual grounding. Second, we identify
the aspects that render top-performing models successful, and relate them to
existing state-of-the-art models for visual grounding, in addition to detecting
potential failure cases by evaluating on carefully selected subsets. Finally,
we discuss several possibilities for future work.
- Abstract(参考訳): 視覚的な接地作業では、自然言語クエリが与えられた場合、画像内の最も関連する領域やオブジェクトを特定する必要がある。
これまでのところ、このタスクの進捗は、人間が話す言語を常に表しているわけではない、キュレートされたデータセットで測られていた。
本研究では,最近普及したタスク設定から逸脱し,自動運転車のシナリオで問題を検討する。
特に,道路シーンの物体に関連付けられる車両に対して,自由形式の自然言語コマンドを乗客に与えることができる状況について考察する。
このトピックに関する研究を刺激するために、我々は最近の \emph{talk2car} データセット(url: https://www.aicrowd.com/challenges/eccv-2020-commands-4-autonomous-vehicles)に基づく \emph{commands for autonomous vehicles} (c4av) チャレンジを組織した。
本稿では,課題の結果について述べる。
まず、使用済みベンチマークと既存のデータセットを比較して視覚的グラウンド化を行う。
第2に、トップパフォーマンスモデルを成功させる側面を特定し、視覚的な接地のための既存の最先端モデルと関連付けると同時に、慎重に選択されたサブセットを評価して潜在的な障害ケースを検出する。
最後に,今後の作業の可能性について検討する。
関連論文リスト
- Learning autonomous driving from aerial imagery [67.06858775696453]
フォトグラムシミュレーターは、生成済みの資産を新しいビューに変換することによって、新しいビューを合成することができる。
我々は、ニューラルネットワーク場(NeRF)を中間表現として使用し、地上車両の視点から新しいビューを合成する。
論文 参考訳(メタデータ) (2024-10-18T05:09:07Z) - Learning Road Scene-level Representations via Semantic Region Prediction [11.518756759576657]
自動走行システムにおける2つの重要な課題、すなわち運転意図予測と自我中心画像からの危険物体識別に取り組む。
我々は、シーンレベルの表現は、エゴ車両周辺の交通シーンの高レベルな意味的および幾何学的表現を捉える必要があると論じる。
本稿では,新しい意味領域予測タスクと自動意味領域ラベリングアルゴリズムを用いてシーンレベルの表現を学習する。
論文 参考訳(メタデータ) (2023-01-02T15:13:30Z) - Vision-Guided Forecasting -- Visual Context for Multi-Horizon Time
Series Forecasting [0.6947442090579469]
2つのモードを融合させて車両状態のマルチ水平予測に取り組む。
我々は,視覚的特徴抽出のための3次元畳み込みと,速度と操舵角度トレースからの特徴抽出のための1次元畳み込みの設計と実験を行った。
我々は,車両の状態を様々な地平線に予測でき,運転状態推定のタスクにおいて,現在の最先端結果よりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-07-27T08:52:40Z) - Connecting Language and Vision for Natural Language-Based Vehicle
Retrieval [77.88818029640977]
本稿では,言語記述という新たなモダリティを,興味ある車両の探索に適用する。
言語と視覚を結びつけるために,トランスフォーマーに基づく言語モデルを用いて最先端の視覚モデルを共同で訓練することを提案する。
提案手法は第5回AIシティチャレンジで1位を獲得し、18.69%のMRRの精度で競争性能を得た。
論文 参考訳(メタデータ) (2021-05-31T11:42:03Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z) - Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文 参考訳(メタデータ) (2020-10-22T17:49:25Z) - A Baseline for the Commands For Autonomous Vehicles Challenge [7.430057056425165]
この課題は、最近の textttTalk2Car データセットに基づいている。
この文書は、参加者が競争を始めるのを助けるためにリリースしたモデルに関する技術的な概要を提供します。
論文 参考訳(メタデータ) (2020-04-20T13:35:47Z) - VehicleNet: Learning Robust Visual Representation for Vehicle
Re-identification [116.1587709521173]
我々は,4つのパブリックな車両データセットを活用することで,大規模車両データセット(VabyNet)を構築することを提案する。
VehicleNetからより堅牢な視覚表現を学習するための、シンプルで効果的な2段階プログレッシブアプローチを設計する。
AICity Challengeのプライベートテストセットにおいて,最先端の精度86.07%mAPを実現した。
論文 参考訳(メタデータ) (2020-04-14T05:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。