論文の概要: Language Prompt for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2309.04379v2
- Date: Sun, 30 Mar 2025 15:11:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:56.447965
- Title: Language Prompt for Autonomous Driving
- Title(参考訳): 自律運転のための言語プロンプト
- Authors: Dongming Wu, Wencheng Han, Yingfei Liu, Tiancai Wang, Cheng-zhong Xu, Xiangyu Zhang, Jianbing Shen,
- Abstract要約: 我々は,3D,マルチビュー,マルチフレーム空間内のシーンを駆動するための最初のオブジェクト指向言語プロンプトセットであるNuPromptを提案する。
nuScenesデータセットを拡張し、40,147の言語記述を構築し、それぞれが平均7.4のオブジェクトトラックレットを参照している。
新しいベンチマークから得られたオブジェクトとテキストのペアに基づいて、新しいプロンプトベースの駆動タスク、すなわち、言語プロンプトを用いて、ビューやフレーム間で記述されたオブジェクトの軌跡を予測する。
- 参考スコア(独自算出の注目度): 63.584824989220905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A new trend in the computer vision community is to capture objects of interest following flexible human command represented by a natural language prompt. However, the progress of using language prompts in driving scenarios is stuck in a bottleneck due to the scarcity of paired prompt-instance data. To address this challenge, we propose the first object-centric language prompt set for driving scenes within 3D, multi-view, and multi-frame space, named NuPrompt. It expands nuScenes dataset by constructing a total of 40,147 language descriptions, each referring to an average of 7.4 object tracklets. Based on the object-text pairs from the new benchmark, we formulate a novel prompt-based driving task, \ie, employing a language prompt to predict the described object trajectory across views and frames. Furthermore, we provide a simple end-to-end baseline model based on Transformer, named PromptTrack. Experiments show that our PromptTrack achieves impressive performance on NuPrompt. We hope this work can provide some new insights for the self-driving community. The data and code have been released at https://github.com/wudongming97/Prompt4Driving.
- Abstract(参考訳): コンピュータビジョンコミュニティの新たなトレンドは、自然言語のプロンプトで表現された柔軟な人間のコマンドに従って、関心の対象をキャプチャすることである。
しかし、駆動シナリオにおける言語プロンプトの使用の進行は、ペアのプロンプトインスタンスデータの不足によりボトルネックに陥る。
この課題に対処するために,我々は,NuPromptという3D,マルチビュー,マルチフレーム空間内のシーンを駆動するための最初のオブジェクト指向言語プロンプトセットを提案する。
nuScenesデータセットを拡張し、40,147の言語記述を構築し、それぞれが平均7.4のオブジェクトトラックレットを参照している。
新しいベンチマークから得られたオブジェクトとテキストのペアに基づいて、新しいプロンプトベースの駆動タスクである \ie を定式化し、記述されたオブジェクトの軌跡をビューやフレーム間で予測するために言語プロンプトを使用する。
さらに、Transformerをベースにしたシンプルなエンドツーエンドベースラインモデル、PromptTrackを提供する。
実験によると、私たちのPromptTrackは、NuPromptで素晴らしいパフォーマンスを実現しています。
この取り組みが、自動運転コミュニティに新たな洞察を与えてくれることを願っている。
データとコードはhttps://github.com/wudongming97/Prompt4Drivingでリリースされた。
関連論文リスト
- ChatTracker: Enhancing Visual Tracking Performance via Chatting with Multimodal Large Language Model [29.702895846058265]
Vision-Language(VL)トラッカーは、様々なアプリケーションにおける汎用性を高めるために、追加の自然言語記述を活用することを提案している。
VLトラッカーは、追跡性能の点で依然としてState-of-The-Art (SoTA)ビジュアルトラッカーより劣っている。
本稿では,MLLM(Multimodal Large Language Model)における多言語知識の豊富な活用を目的としたChatTrackerを提案し,高品質な言語記述を生成する。
論文 参考訳(メタデータ) (2024-11-04T02:43:55Z) - LaMOT: Language-Guided Multi-Object Tracking [13.866428951384124]
Vision-Language MOTは、人間の言語コマンドに基づいてオブジェクトを追跡することを目的としている。
様々な努力にもかかわらず、重要な課題は、なぜ言語が追跡に使用されるのかを明確に理解していないことである。
本稿では,Language-Guided MOT(Language-Guided MOT)と,それに対応する大規模ベンチマークであるLaMOTを紹介する。
論文 参考訳(メタデータ) (2024-06-12T15:24:09Z) - LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。
提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文 参考訳(メタデータ) (2023-10-11T20:52:30Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - Type-to-Track: Retrieve Any Object via Prompt-based Tracking [34.859061177766016]
本稿では,Type-to-Trackと呼ばれるマルチオブジェクト追跡のための新しいパラダイムを提案する。
Type-to-Trackでは、自然言語の記述をタイプすることで、ビデオ内のオブジェクトを追跡することができる。
我々は、GroOTと呼ばれる、そのグラウンドド多重オブジェクト追跡タスクのための新しいデータセットを提案する。
論文 参考訳(メタデータ) (2023-05-22T21:25:27Z) - OVTrack: Open-Vocabulary Multiple Object Tracking [64.73379741435255]
OVTrackは任意のオブジェクトクラスを追跡することができるオープン語彙トラッカーである。
大規模な大語彙のTAOベンチマークに新たな最先端技術が設定されている。
論文 参考訳(メタデータ) (2023-04-17T16:20:05Z) - Explaining Patterns in Data with Language Models via Interpretable
Autoprompting [143.4162028260874]
本稿では,データを説明する自然言語文字列を生成するアルゴリズムである,解釈可能なオートプロンプト(iPrompt)を提案する。
iPromptは、基盤となるデータセット記述を正確に見つけることで、意味のある洞察を得ることができる。
fMRIデータセットを用いた実験は、iPromptが科学的発見に役立つ可能性を示している。
論文 参考訳(メタデータ) (2022-10-04T18:32:14Z) - PromptSource: An Integrated Development Environment and Repository for
Natural Language Prompts [106.82620362222197]
PromptSourceは自然言語のプロンプトを作成し、共有し、使用するシステムである。
Promptは、データセットから自然言語入力とターゲット出力にサンプルをマッピングする関数である。
約170のデータセットに対して2,000以上のプロンプトが、すでにPromptSourceで利用可能である。
論文 参考訳(メタデータ) (2022-02-02T20:48:54Z) - All You Can Embed: Natural Language based Vehicle Retrieval with
Spatio-Temporal Transformers [0.981213663876059]
AYCE(All You Can Embed)は,単一車両追跡シーケンスを自然言語に関連付けるモジュール型ソリューションである。
提案したアーキテクチャの主要なビルディングブロックは (i) BERT でテキスト記述の埋め込みを提供し、 (ii) コンボリューションバックボーンと Transformer モデルで視覚情報を埋め込む。
検索モデルのトレーニングのために,視覚と言語との埋め込み距離を学習するために,トリプルト・マージン・ロスのバリエーションを提案する。
論文 参考訳(メタデータ) (2021-06-18T14:38:51Z) - Connecting Language and Vision for Natural Language-Based Vehicle
Retrieval [77.88818029640977]
本稿では,言語記述という新たなモダリティを,興味ある車両の探索に適用する。
言語と視覚を結びつけるために,トランスフォーマーに基づく言語モデルを用いて最先端の視覚モデルを共同で訓練することを提案する。
提案手法は第5回AIシティチャレンジで1位を獲得し、18.69%のMRRの精度で競争性能を得た。
論文 参考訳(メタデータ) (2021-05-31T11:42:03Z) - SBNet: Segmentation-based Network for Natural Language-based Vehicle
Search [8.286899656309476]
自然言語に基づく車両検索は、自然言語をクエリとして記述し、所定の画像内で対象車両を見つけるタスクである。
この技術は、容疑者の車両を捜索する警察を含む様々な分野に適用することができる。
車両検索のための自然言語に基づくセグメンテーションを行うディープニューラルネットワークSBNetを提案する。
論文 参考訳(メタデータ) (2021-04-22T08:06:17Z) - Commands 4 Autonomous Vehicles (C4AV) Workshop Summary [91.92872482200018]
本稿では,最近のEmphTalk2Carデータセットに基づいて,EmphCommands for autonomous Vehicles (C4AV)チャレンジの結果について述べる。
我々は、トップパフォーマンスモデルを成功させる側面を特定し、それらを視覚的なグラウンド化のために既存の最先端モデルと関連付ける。
論文 参考訳(メタデータ) (2020-09-18T12:33:21Z) - A Baseline for the Commands For Autonomous Vehicles Challenge [7.430057056425165]
この課題は、最近の textttTalk2Car データセットに基づいている。
この文書は、参加者が競争を始めるのを助けるためにリリースしたモデルに関する技術的な概要を提供します。
論文 参考訳(メタデータ) (2020-04-20T13:35:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。