論文の概要: Language Prompt for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2309.04379v1
- Date: Fri, 8 Sep 2023 15:21:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-11 13:02:33.759720
- Title: Language Prompt for Autonomous Driving
- Title(参考訳): 自律運転のための言語プロンプト
- Authors: Dongming Wu, Wencheng Han, Tiancai Wang, Yingfei Liu, Xiangyu Zhang,
Jianbing Shen
- Abstract要約: 我々は,3D,マルチビュー,マルチフレーム空間内のシーンを駆動するための最初のオブジェクト指向言語プロンプトセットであるNuPromptを提案する。
合計35,367の言語記述を構築することで、Nuscenesデータセットを拡張し、それぞれが平均5.3のオブジェクトトラックを参照している。
新しいベンチマークから得られたオブジェクトとテキストのペアに基づいて、新しいプロンプトベースの駆動タスク、すなわち、言語プロンプトを用いて、ビューやフレーム間で記述されたオブジェクトの軌跡を予測する。
- 参考スコア(独自算出の注目度): 58.45334918772529
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A new trend in the computer vision community is to capture objects of
interest following flexible human command represented by a natural language
prompt. However, the progress of using language prompts in driving scenarios is
stuck in a bottleneck due to the scarcity of paired prompt-instance data. To
address this challenge, we propose the first object-centric language prompt set
for driving scenes within 3D, multi-view, and multi-frame space, named
NuPrompt. It expands Nuscenes dataset by constructing a total of 35,367
language descriptions, each referring to an average of 5.3 object tracks. Based
on the object-text pairs from the new benchmark, we formulate a new
prompt-based driving task, \ie, employing a language prompt to predict the
described object trajectory across views and frames. Furthermore, we provide a
simple end-to-end baseline model based on Transformer, named PromptTrack.
Experiments show that our PromptTrack achieves impressive performance on
NuPrompt. We hope this work can provide more new insights for the autonomous
driving community. Dataset and Code will be made public at
\href{https://github.com/wudongming97/Prompt4Driving}{https://github.com/wudongming97/Prompt4Driving}.
- Abstract(参考訳): コンピュータビジョンコミュニティにおける新しいトレンドは、自然言語プロンプトで表現される柔軟な人間の命令に従って、興味のあるオブジェクトをキャプチャすることだ。
しかし,一対のプロンプト・インスタンスデータの不足により,運転シナリオにおける言語プロンプトの使用の進捗はボトルネックに陥っている。
この課題に対処するため,我々はNuPromptという3D,マルチビュー,マルチフレーム空間内のシーンを駆動するための最初のオブジェクト指向言語プロンプトセットを提案する。
平均5.3のオブジェクトトラックを参照して、合計35,367の言語記述を構築することで、nusceneデータセットを拡張する。
新しいベンチマークのオブジェクト-テキストペアに基づいて、ビューとフレーム間で記述されたオブジェクトの軌跡を予測する言語プロンプトを使用した、新しいプロンプトベースの駆動タスクである \ie を定式化する。
さらに、Transformerをベースにしたシンプルなエンドツーエンドベースラインモデル、PromptTrackを提供する。
実験によると、私たちのPromptTrackは、NuPromptで素晴らしいパフォーマンスを実現しています。
この研究が、自動運転コミュニティにさらなる洞察をもたらすことを願っている。
DatasetとCodeは、 \href{https://github.com/wudongming97/Prompt4Driving}{https://github.com/wudongming97/Prompt4Driving}で公開される。
関連論文リスト
- Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - Type-to-Track: Retrieve Any Object via Prompt-based Tracking [34.859061177766016]
本稿では,Type-to-Trackと呼ばれるマルチオブジェクト追跡のための新しいパラダイムを提案する。
Type-to-Trackでは、自然言語の記述をタイプすることで、ビデオ内のオブジェクトを追跡することができる。
我々は、GroOTと呼ばれる、そのグラウンドド多重オブジェクト追跡タスクのための新しいデータセットを提案する。
論文 参考訳(メタデータ) (2023-05-22T21:25:27Z) - Explaining Patterns in Data with Language Models via Interpretable
Autoprompting [143.4162028260874]
本稿では,データを説明する自然言語文字列を生成するアルゴリズムである,解釈可能なオートプロンプト(iPrompt)を提案する。
iPromptは、基盤となるデータセット記述を正確に見つけることで、意味のある洞察を得ることができる。
fMRIデータセットを用いた実験は、iPromptが科学的発見に役立つ可能性を示している。
論文 参考訳(メタデータ) (2022-10-04T18:32:14Z) - PromptSource: An Integrated Development Environment and Repository for
Natural Language Prompts [106.82620362222197]
PromptSourceは自然言語のプロンプトを作成し、共有し、使用するシステムである。
Promptは、データセットから自然言語入力とターゲット出力にサンプルをマッピングする関数である。
約170のデータセットに対して2,000以上のプロンプトが、すでにPromptSourceで利用可能である。
論文 参考訳(メタデータ) (2022-02-02T20:48:54Z) - All You Can Embed: Natural Language based Vehicle Retrieval with
Spatio-Temporal Transformers [0.981213663876059]
AYCE(All You Can Embed)は,単一車両追跡シーケンスを自然言語に関連付けるモジュール型ソリューションである。
提案したアーキテクチャの主要なビルディングブロックは (i) BERT でテキスト記述の埋め込みを提供し、 (ii) コンボリューションバックボーンと Transformer モデルで視覚情報を埋め込む。
検索モデルのトレーニングのために,視覚と言語との埋め込み距離を学習するために,トリプルト・マージン・ロスのバリエーションを提案する。
論文 参考訳(メタデータ) (2021-06-18T14:38:51Z) - Connecting Language and Vision for Natural Language-Based Vehicle
Retrieval [77.88818029640977]
本稿では,言語記述という新たなモダリティを,興味ある車両の探索に適用する。
言語と視覚を結びつけるために,トランスフォーマーに基づく言語モデルを用いて最先端の視覚モデルを共同で訓練することを提案する。
提案手法は第5回AIシティチャレンジで1位を獲得し、18.69%のMRRの精度で競争性能を得た。
論文 参考訳(メタデータ) (2021-05-31T11:42:03Z) - SBNet: Segmentation-based Network for Natural Language-based Vehicle
Search [8.286899656309476]
自然言語に基づく車両検索は、自然言語をクエリとして記述し、所定の画像内で対象車両を見つけるタスクである。
この技術は、容疑者の車両を捜索する警察を含む様々な分野に適用することができる。
車両検索のための自然言語に基づくセグメンテーションを行うディープニューラルネットワークSBNetを提案する。
論文 参考訳(メタデータ) (2021-04-22T08:06:17Z) - Commands 4 Autonomous Vehicles (C4AV) Workshop Summary [91.92872482200018]
本稿では,最近のEmphTalk2Carデータセットに基づいて,EmphCommands for autonomous Vehicles (C4AV)チャレンジの結果について述べる。
我々は、トップパフォーマンスモデルを成功させる側面を特定し、それらを視覚的なグラウンド化のために既存の最先端モデルと関連付ける。
論文 参考訳(メタデータ) (2020-09-18T12:33:21Z) - A Baseline for the Commands For Autonomous Vehicles Challenge [7.430057056425165]
この課題は、最近の textttTalk2Car データセットに基づいている。
この文書は、参加者が競争を始めるのを助けるためにリリースしたモデルに関する技術的な概要を提供します。
論文 参考訳(メタデータ) (2020-04-20T13:35:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。