Fugu-MT 論文翻訳(概要): Explanation for Trajectory Planning using Multi-modal Large Language Model for Autonomous Driving

論文の概要: Explanation for Trajectory Planning using Multi-modal Large Language Model for Autonomous Driving

arxiv url: http://arxiv.org/abs/2411.09971v1
Date: Fri, 15 Nov 2024 06:05:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:47.950059
Title: Explanation for Trajectory Planning using Multi-modal Large Language Model for Autonomous Driving
Title（参考訳）: 多モード大言語モデルを用いた軌道計画の自律運転への適用
Authors: Shota Yamazaki, Chenyu Zhang, Takuya Nanri, Akio Shigekane, Siyuan Wang, Jo Nishiyama, Tao Chu, Kohei Yokosawa,
Abstract要約: この制限を解決するために,エゴ車両の将来の計画軌道を入力とする推論モデルを提案する。本研究では,エゴ車両の今後の計画軌跡を入力として,この制限を新たに収集したデータセットで解決する推論モデルを提案する。
参考スコア（独自算出の注目度）: 6.873701251194593
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: End-to-end style autonomous driving models have been developed recently. These models lack interpretability of decision-making process from perception to control of the ego vehicle, resulting in anxiety for passengers. To alleviate it, it is effective to build a model which outputs captions describing future behaviors of the ego vehicle and their reason. However, the existing approaches generate reasoning text that inadequately reflects the future plans of the ego vehicle, because they train models to output captions using momentary control signals as inputs. In this study, we propose a reasoning model that takes future planning trajectories of the ego vehicle as inputs to solve this limitation with the dataset newly collected.
Abstract（参考訳）: 近年、エンド・ツー・エンドの自動運転モデルが開発されている。これらのモデルは、エゴ車両の認識から制御までの意思決定プロセスの解釈可能性に欠けており、乗客に不安を与えている。これを軽減するために,エゴ車の将来行動とその理由を説明するキャプションを出力するモデルを構築することが効果的である。しかし,既存の手法では,時刻制御信号を用いたキャプションを入力として出力するようモデルを訓練するため,エゴ車両の将来計画に不適切な推論文を生成する。本研究では,エゴ車両の今後の計画軌跡を入力として,この制限を新たに収集したデータセットで解決する推論モデルを提案する。

関連論文リスト

AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning [42.409352964719204]
Vision-Language-Action(VLA)モデルは、エンドツーエンドの自動運転を約束している。現在のVLAモデルは、物理的に実現不可能なアクション出力、複雑なモデル構造、あるいは不要に長い推論に苦しむ。本稿では,単一自己回帰生成モデル内での推論と行動生成を統一する新しいVLAモデルであるAutoVLAを提案する。
論文参考訳（メタデータ） (2025-06-16T17:58:50Z)
DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。 nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文参考訳（メタデータ） (2024-09-15T15:55:24Z)
GenFollower: Enhancing Car-Following Prediction with Large Language Models [11.847589952558566]
我々は、これらの課題に対処するために、大規模言語モデル(LLM)を活用する新しいゼロショットプロンプトアプローチであるGenFollowerを提案する。我々は,車追従動作を言語モデリング問題として再編成し,不均一な入力をLLMのための構造化プロンプトに統合する。オープンデータセットの実験は、GenFollowerの優れたパフォーマンスと解釈可能な洞察を提供する能力を示している。
論文参考訳（メタデータ） (2024-07-08T04:54:42Z)
Tractable Joint Prediction and Planning over Discrete Behavior Modes for Urban Driving [15.671811785579118]
自己回帰閉ループモデルのパラメータ化は,再学習を伴わずに可能であることを示す。離散潜在モード上での完全反応性閉ループ計画を提案する。当社のアプローチは、CARLAにおける従来の最先端技術よりも、高密度なトラフィックシナリオに挑戦する上で優れています。
論文参考訳（メタデータ） (2024-03-12T01:00:52Z)
GenAD: Generative End-to-End Autonomous Driving [13.332272121018285]
GenADは、ジェネレーティブモデリング問題に自律運転を組み込むジェネレーティブフレームワークである。本稿では,まず周囲のシーンをマップ対応のインスタンストークンに変換するインスタンス中心のシーントークン化手法を提案する。次に、変動型オートエンコーダを用いて、軌道先行モデリングのための構造潜在空間における将来の軌道分布を学習する。
論文参考訳（メタデータ） (2024-02-18T08:21:05Z)
DME-Driver: Integrating Human Decision Logic and 3D Scene Perception in Autonomous Driving [65.04871316921327]
本稿では,自律運転システムの性能と信頼性を高める新しい自律運転システムを提案する。 DME-Driverは、意思決定者として強力な視覚言語モデル、制御信号生成者として計画指向認識モデルを利用する。このデータセットを利用することで、論理的思考プロセスを通じて高精度な計画精度を実現する。
論文参考訳（メタデータ） (2024-01-08T03:06:02Z)
Is Ego Status All You Need for Open-Loop End-to-End Autonomous Driving? [84.17711168595311]
エンドツーエンドの自動運転は、フルスタックの観点から自律性を目標とする、有望な研究の方向性として浮上している。比較的単純な駆動シナリオを特徴とするnuScenesデータセットは、エンド・ツー・エンド・モデルにおける知覚情報の未使用化につながる。予測軌跡が道路に付着するかどうかを評価するための新しい指標を提案する。
論文参考訳（メタデータ） (2023-12-05T11:32:31Z)
LLM4Drive: A Survey of Large Language Models for Autonomous Driving [62.10344445241105]
大規模言語モデル(LLM)は、文脈理解、論理的推論、回答生成などの能力を示した。本稿では,自動走行のための大規模言語モデル (LLM4AD) に関する研究ラインを体系的にレビューする。
論文参考訳（メタデータ） (2023-11-02T07:23:33Z)
Decentralized Vehicle Coordination: The Berkeley DeepDrive Drone Dataset and Consensus-Based Models [76.32775745488073]
本研究では,非構造環境における動作計画の研究を目的とした,新しいデータセットとモデリングフレームワークを提案する。コンセンサスに基づくモデリング手法により、データセットで観測された優先順位の出現を効果的に説明できることを実証する。
論文参考訳（メタデータ） (2022-09-19T05:06:57Z)
Development and testing of an image transformer for explainable autonomous driving systems [0.7046417074932257]
ディープラーニング(DL)アプローチはコンピュータビジョン(CV)アプリケーションで成功している。 DLベースのCVモデルは一般に、解釈可能性の欠如によりブラックボックスと見なされる。本稿では,SOTA(State-of-the-art self-attention based model)に基づくエンドツーエンド自動運転システムを提案する。
論文参考訳（メタデータ） (2021-10-11T19:01:41Z)
Reason induced visual attention for explainable autonomous driving [2.090380922731455]
ディープラーニング (DL) ベースのコンピュータビジョン (CV) モデルは一般的に、解釈性が悪いため、ブラックボックスと見なされる。本研究の目的は,自律運転におけるDLモデルの解釈可能性を高めることにある。提案手法は,視覚入力(画像)と自然言語を協調的にモデル化することにより,人間の運転者の学習過程を模倣する。
論文参考訳（メタデータ） (2021-10-11T18:50:41Z)
Perceive, Predict, and Plan: Safe Motion Planning Through Interpretable Semantic Representations [81.05412704590707]
本稿では,自動運転車の協調認識,予測,動作計画を行うエンド・ツー・エンドの学習可能なネットワークを提案する。私たちのネットワークは、人間のデモからエンドツーエンドに学習されます。
論文参考訳（メタデータ） (2020-08-13T14:40:46Z)
PiP: Planning-informed Trajectory Prediction for Autonomous Driving [69.41885900996589]
マルチエージェント設定における予測問題に対処するために,計画インフォームド・トラジェクトリ予測(PiP)を提案する。本手法は,エゴカーの計画により予測過程を通知することにより,高速道路のデータセット上でのマルチエージェント予測の最先端性能を実現する。
論文参考訳（メタデータ） (2020-03-25T16:09:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。