論文の概要: Dolphins: Multimodal Language Model for Driving
- arxiv url: http://arxiv.org/abs/2312.00438v1
- Date: Fri, 1 Dec 2023 09:10:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 15:04:31.871090
- Title: Dolphins: Multimodal Language Model for Driving
- Title(参考訳): Dolphins: 運転のためのマルチモーダル言語モデル
- Authors: Yingzi Ma, Yulong Cao, Jiachen Sun, Marco Pavone, Chaowei Xiao
- Abstract要約: 対話型運転支援システムDolphinsを紹介する。
ドルフィンは、ビデオ(または画像)データ、テキスト命令、履歴制御信号からなるマルチモーダル入力を処理するのに適している。
- 参考スコア(独自算出の注目度): 42.14069594700448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The quest for fully autonomous vehicles (AVs) capable of navigating complex
real-world scenarios with human-like understanding and responsiveness. In this
paper, we introduce Dolphins, a novel vision-language model architected to
imbibe human-like abilities as a conversational driving assistant. Dolphins is
adept at processing multimodal inputs comprising video (or image) data, text
instructions, and historical control signals to generate informed outputs
corresponding to the provided instructions. Building upon the open-sourced
pretrained Vision-Language Model, OpenFlamingo, we first enhance Dolphins's
reasoning capabilities through an innovative Grounded Chain of Thought (GCoT)
process. Then we tailored Dolphins to the driving domain by constructing
driving-specific instruction data and conducting instruction tuning. Through
the utilization of the BDD-X dataset, we designed and consolidated four
distinct AV tasks into Dolphins to foster a holistic understanding of intricate
driving scenarios. As a result, the distinctive features of Dolphins are
characterized into two dimensions: (1) the ability to provide a comprehensive
understanding of complex and long-tailed open-world driving scenarios and solve
a spectrum of AV tasks, and (2) the emergence of human-like capabilities
including gradient-free instant adaptation via in-context learning and error
recovery via reflection.
- Abstract(参考訳): 人間のような理解と応答性で複雑な現実のシナリオをナビゲートできる完全自動運転車(AV)の探索。
本稿では,対話型運転アシスタントとしての人間的能力の付与を目的とした視覚言語モデルであるイルカについて紹介する。
ドルフィンは、ビデオ(または画像)データ、テキスト命令、履歴制御信号からなるマルチモーダル入力を処理し、提供された命令に対応するインフォメーション出力を生成する。
オープンソースでトレーニング済みのビジョン言語モデルopenflamingoに基づいて、我々はまず、革新的な着地的思考連鎖(gcot)プロセスを通じてイルカの推論能力を高める。
そこでDolphinsを駆動領域に調整し、駆動固有の命令データを構築し、命令チューニングを行う。
BDD-Xデータセットの利用を通じて、4つの異なるAVタスクをDolphinsに統合し、複雑な運転シナリオの全体的理解を促進するようにしました。
その結果,Dolphinsの特徴は,(1)複雑で長い時間を要するオープンワールドの運転シナリオを包括的に理解し,AVタスクのスペクトルを解く能力,(2)文脈内学習による勾配のない即時適応やリフレクションによるエラーリカバリを含む人間のような能力の出現,の2つの次元に特徴付けられる。
関連論文リスト
- Human Insights Driven Latent Space for Different Driving Perspectives: A Unified Encoder for Efficient Multi-Task Inference [43.474068248379815]
本稿では,都市ナビゲーションに不可欠な複数のコンピュータビジョンタスクを訓練した共有エンコーダを提案する。
ポーズ推定のためのマルチスケール特徴ネットワークを導入し,深度学習を改善する。
その結果,多様な視覚的タスクを訓練した共有バックボーンは,全体的な知覚能力を提供することができることがわかった。
論文 参考訳(メタデータ) (2024-09-16T08:54:03Z) - SimpleLLM4AD: An End-to-End Vision-Language Model with Graph Visual Question Answering for Autonomous Driving [15.551625571158056]
我々はSimpleLLM4ADと呼ばれるe2eAD法を提案する。
本手法では,e2eADタスクは知覚,予測,計画,行動の4段階に分けられる。
我々の実験は、SimpleLLM4ADが複雑な運転シナリオで競合性能を達成することを示した。
論文 参考訳(メタデータ) (2024-07-31T02:35:33Z) - Delving into Multi-modal Multi-task Foundation Models for Road Scene Understanding: From Learning Paradigm Perspectives [56.2139730920855]
本稿では,道路シーンに特化して設計されたMM-VUFMの系統解析について述べる。
本研究の目的は,タスク特化モデル,統合マルチモーダルモデル,統合マルチタスクモデル,基礎モデル推進技術など,共通プラクティスの包括的概要を提供することである。
我々は、クローズドループ駆動システム、解釈可能性、エンボディドドライブエージェント、世界モデルなど、重要な課題と今後のトレンドに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-02-05T12:47:09Z) - VLP: Vision Language Planning for Autonomous Driving [52.640371249017335]
本稿では,言語理解と自律運転のギャップを埋めるために,言語モデルを利用したビジョン・ランゲージ・プランニングフレームワークを提案する。
平均的なL2エラーと衝突率でそれぞれ35.9%と60.5%の削減を達成して、NuScenesデータセットの最先端のエンドツーエンドプランニング性能を達成している。
論文 参考訳(メタデータ) (2024-01-10T23:00:40Z) - Lana: A Language-Capable Navigator for Instruction Following and
Generation [70.76686546473994]
LANAは言語対応のナビゲーションエージェントで、人書きのナビゲーションコマンドを実行し、人へのルート記述を提供することができる。
我々は、最近の高度なタスク固有解と比較して、LANAが命令追従と経路記述の両方においてより良い性能を発揮することを実証的に検証した。
加えて、言語生成能力が与えられたLANAは、人間の行動を説明し、人間のウェイフィンディングを支援することができる。
論文 参考訳(メタデータ) (2023-03-15T07:21:28Z) - Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文 参考訳(メタデータ) (2023-01-03T08:52:49Z) - DOLPHINS: Dataset for Collaborative Perception enabled Harmonious and
Interconnected Self-driving [19.66714697653504]
V2Xネットワークは、自動運転における協調的な認識を可能にしている。
データセットの欠如は、協調認識アルゴリズムの開発を著しく妨げている。
DOLPHINS: cOllaborative Perception を実現するためのデータセットである Harmonious と Inter connected Self-driving をリリースする。
論文 参考訳(メタデータ) (2022-07-15T17:07:07Z) - Generative Adversarial Imitation Learning for End-to-End Autonomous
Driving on Urban Environments [0.8122270502556374]
GAIL(Generative Adversarial Imitation Learning)は、報酬関数を明示的に定義することなくポリシーを訓練することができる。
両モデルとも,訓練終了後に開始から終了まで,専門家の軌道を模倣できることを示す。
論文 参考訳(メタデータ) (2021-10-16T15:04:13Z) - Episodic Transformer for Vision-and-Language Navigation [142.6236659368177]
本稿では,長時間のサブタスク処理と複雑なヒューマンインストラクションの理解という2つの課題に取り組むことに焦点を当てる。
エピソード変換器(E.T.)を提案する。
言語入力と視覚観察と行動の全エピソード履歴を符号化するマルチモーダルトランスフォーマーである。
我々のアプローチは、挑戦的なALFREDベンチマークに新たな技術状況を設定し、見つからないテストの分割で38.4%と8.5%のタスク成功率を達成した。
論文 参考訳(メタデータ) (2021-05-13T17:51:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。