Fugu-MT 論文翻訳(概要): ADAPT: Action-aware Driving Caption Transformer

論文の概要: ADAPT: Action-aware Driving Caption Transformer

arxiv url: http://arxiv.org/abs/2302.00673v1
Date: Wed, 1 Feb 2023 18:59:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-02 16:50:35.701982
Title: ADAPT: Action-aware Driving Caption Transformer
Title（参考訳）: adapt: アクションアウェアな運転キャプショントランスフォーマー
Authors: Bu Jin, Xinyu Liu, Yupeng Zheng, Pengfei Li, Hao Zhao, Tong Zhang, Yuhang Zheng, Guyue Zhou and Jingjing Liu
Abstract要約: 本稿では,自律車体制御と行動の意思決定ステップごとにユーザフレンドリーな自然言語ナレーションと推論を提供する,エンド・ツー・エンドのトランスフォーマー・ベースアーキテクチャであるADAPTを提案する。 BDD-Xデータセットの実験では、自動メトリクスと人的評価の両方でADAPTフレームワークの最先端のパフォーマンスが実証されている。実世界のアプリケーションで提案するフレームワークの実現可能性を説明するために,実車用ビデオの入力を取り入れ,アクションナレーションと推論をリアルタイムで出力する,新しい展開可能なシステムを構築した。
参考スコア（独自算出の注目度）: 24.3857045947027
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: End-to-end autonomous driving has great potential in the transportation industry. However, the lack of transparency and interpretability of the automatic decision-making process hinders its industrial adoption in practice. There have been some early attempts to use attention maps or cost volume for better model explainability which is difficult for ordinary passengers to understand. To bridge the gap, we propose an end-to-end transformer-based architecture, ADAPT (Action-aware Driving cAPtion Transformer), which provides user-friendly natural language narrations and reasoning for each decision making step of autonomous vehicular control and action. ADAPT jointly trains both the driving caption task and the vehicular control prediction task, through a shared video representation. Experiments on BDD-X (Berkeley DeepDrive eXplanation) dataset demonstrate state-of-the-art performance of the ADAPT framework on both automatic metrics and human evaluation. To illustrate the feasibility of the proposed framework in real-world applications, we build a novel deployable system that takes raw car videos as input and outputs the action narrations and reasoning in real time. The code, models and data are available at https://github.com/jxbbb/ADAPT.
Abstract（参考訳）: エンドツーエンドの自動運転は交通業界に大きな可能性を秘めている。しかし、自動意思決定プロセスの透明性と解釈可能性の欠如は、実際に産業採用を妨げる。注意マップやコストボリュームをモデル説明性の向上に利用しようとする試みは、一般の乗客にとって理解しづらいものだった。このギャップを埋めるために,ユーザフレンドリーな自然言語ナレーションと,自律車体制御と行動の各決定ステップに対する推論を提供する,エンド・ツー・エンドのトランスフォーマーベースのアーキテクチャであるADAPTを提案する。 ADAPTは、共有ビデオ表現を通じて、駆動キャプションタスクと車両制御予測タスクを共同で訓練する。 BDD-X(Berkeley DeepDrive eXplanation)データセットの実験は、自動メトリクスと人的評価の両方でADAPTフレームワークの最先端のパフォーマンスを示している。実世界のアプリケーションで提案するフレームワークの実現可能性を説明するために,実車用ビデオの入力を取り入れ,アクションナレーションと推論をリアルタイムで出力する,新しい展開可能なシステムを構築した。コード、モデル、データはhttps://github.com/jxbbb/adaptで入手できる。

関連論文リスト

InsightDrive: Insight Scene Representation for End-to-End Autonomous Driving [3.8737986316149775]
我々はInsightDriveと呼ばれる新しいエンドツーエンドの自動運転手法を提案する。言語誘導されたシーン表現によって知覚を整理する。実験では、InsightDriveはエンドツーエンドの自動運転において最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-03-17T10:52:32Z)
DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving [62.62464518137153]
DriveTransformerは、スケールアップを簡単にするためのシンプルなE2E-ADフレームワークである。タスク・セルフ・アテンション、センサー・クロス・アテンション、時間的クロス・アテンションという3つの統合された操作で構成されている。シミュレーションされたクローズドループベンチマークBench2Driveと、FPSの高い実世界のオープンループベンチマークnuScenesの両方で、最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-03-07T11:41:18Z)
Transfer Your Perspective: Controllable 3D Generation from Any Viewpoint in a Driving Scene [56.73568220959019]
共同自動運転(CAV)は有望な方向のようだが、開発のためのデータ収集は簡単ではない。本研究では,運転シーンにおける異なる視点から現実的な知覚を生み出すことを目的とした,救助支援のための新しいサロゲートを提案する。シミュレーションされたコラボレーティブデータと実車データを組み合わせた,最初のソリューションを提案する。
論文参考訳（メタデータ） (2025-02-10T17:07:53Z)
Doe-1: Closed-Loop Autonomous Driving with Large World Model [63.99937807085461]
統合された認識,予測,計画のための大規模駆動wOrld modEl(Doe-1)を提案する。我々は自由形式のテキストを認識に使用し、画像トークンを用いてRGB空間内での予測を直接生成する。計画には、アクションを離散トークンに効果的にエンコードするために、位置認識型トークン化器を用いる。
論文参考訳（メタデータ） (2024-12-12T18:59:59Z)
GPD-1: Generative Pre-training for Driving [77.06803277735132]
本稿では,これらすべてのタスクを実現するために,GPD-1(Generative Pre-Training for Driving)モデルを提案する。それぞれのシーンをエゴ、エージェント、マップトークンで表現し、統一トークン生成問題として自律運転を定式化する。 GPD-1は、シーン生成、交通シミュレーション、クローズドループシミュレーション、マップ予測、モーションプランニングなど、微調整なしで様々なタスクに適応する。
論文参考訳（メタデータ） (2024-12-11T18:59:51Z)
Pedestrian motion prediction evaluation for urban autonomous driving [0.0]
我々は、従来の動き予測指標の妥当性を決定するために、提供されたオープンソースソリューションを用いて、選択した出版物を解析する。この視点は、既存の最先端の歩行者運動予測問題の現実的なパフォーマンスを探している、自動運転やロボット工学の潜在的なエンジニアにとって価値があるだろう。
論文参考訳（メタデータ） (2024-10-22T10:06:50Z)
DriveCoT: Integrating Chain-of-Thought Reasoning with End-to-End Driving [81.04174379726251]
本稿では,DriveCoTというエンド・ツー・エンドの運転データセットを総合的に収集する。センサーデータ、制御決定、および推論プロセスを示すチェーン・オブ・シークレット・ラベルが含まれている。我々は,私たちのデータセットに基づいてトレーニングされたDriveCoT-Agentと呼ばれるベースラインモデルを提案し,連鎖予測と最終決定を生成する。
論文参考訳（メタデータ） (2024-03-25T17:59:01Z)
DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral Planning States for Autonomous Driving [69.82743399946371]
DriveMLMは、現実的なシミュレータでクローズループの自律運転を実行するためのフレームワークである。モジュールADシステムの動作計画モジュールをモデル化するために,MLLM (Multi-modal LLM) を用いる。このモデルは、Apolloのような既存のADシステムでプラグイン・アンド・プレイすることで、クローズループ運転を行うことができる。
論文参考訳（メタデータ） (2023-12-14T18:59:05Z)
On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving [37.617793990547625]
本報告では,最新のVLMであるGPT-4Vの徹底的な評価を行う。我々は、シーンを駆動し、決定を下し、最終的にはドライバーの能力で行動する、モデルを理解する能力について探求する。 GPT-4Vは,既存の自律システムと比較して,シーン理解や因果推論において優れた性能を示した。
論文参考訳（メタデータ） (2023-11-09T12:58:37Z)
Drive Anywhere: Generalizable End-to-end Autonomous Driving with Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文参考訳（メタデータ） (2023-10-26T17:56:35Z)
End-to-end Autonomous Driving: Challenges and Frontiers [45.391430626264764]
エンドツーエンドの自動運転におけるモチベーション、ロードマップ、方法論、課題、今後のトレンドについて、270以上の論文を包括的に分析する。マルチモダリティ、解釈可能性、因果的混乱、堅牢性、世界モデルなど、いくつかの重要な課題を掘り下げます。基礎モデルと視覚前訓練の現在の進歩と、これらの技術をエンドツーエンドの駆動フレームワークに組み込む方法について論じる。
論文参考訳（メタデータ） (2023-06-29T14:17:24Z)
TrafficBots: Towards World Models for Autonomous Driving Simulation and Motion Prediction [149.5716746789134]
我々は,データ駆動型交通シミュレーションを世界モデルとして定式化できることを示した。動作予測とエンドツーエンドの運転に基づくマルチエージェントポリシーであるTrafficBotsを紹介する。オープンモーションデータセットの実験は、TrafficBotsが現実的なマルチエージェント動作をシミュレートできることを示している。
論文参考訳（メタデータ） (2023-03-07T18:28:41Z)
Exploring Contextual Representation and Multi-Modality for End-to-End Autonomous Driving [58.879758550901364]
最近の知覚システムは、センサー融合による空間理解を高めるが、しばしば完全な環境コンテキストを欠いている。我々は,3台のカメラを統合し,人間の視野をエミュレートするフレームワークを導入し,トップダウンのバードアイビューセマンティックデータと組み合わせて文脈表現を強化する。提案手法は, オープンループ設定において0.67mの変位誤差を達成し, nuScenesデータセットでは6.9%の精度で現在の手法を上回っている。
論文参考訳（メタデータ） (2022-10-13T05:56:20Z)
COOPERNAUT: End-to-End Driving with Cooperative Perception for Networked Vehicles [54.61668577827041]
本稿では,車間認識を用いたエンドツーエンド学習モデルであるCOOPERNAUTを紹介する。われわれのAutoCastSim実験は、我々の協調知覚駆動モデルが平均成功率を40%向上させることを示唆している。
論文参考訳（メタデータ） (2022-05-04T17:55:12Z)
Fully End-to-end Autonomous Driving with Semantic Depth Cloud Mapping and Multi-Agent [2.512827436728378]
本稿では,エンド・ツー・エンドとマルチタスクの学習方法を用いて学習した新しいディープラーニングモデルを提案する。このモデルは,CARLAシミュレータ上で,現実の環境を模倣するために,通常の状況と異なる天候のシナリオを用いて評価する。
論文参考訳（メタデータ） (2022-04-12T03:57:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。