論文の概要: VLM-Assisted Continual learning for Visual Question Answering in Self-Driving
- arxiv url: http://arxiv.org/abs/2502.00843v1
- Date: Sun, 02 Feb 2025 16:27:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:59:36.814589
- Title: VLM-Assisted Continual learning for Visual Question Answering in Self-Driving
- Title(参考訳): 自動運転における視覚質問応答のためのVLM支援連続学習
- Authors: Yuxin Lin, Mengshi Qi, Liang Liu, Huadong Ma,
- Abstract要約: 本稿では,自律運転における視覚質問応答(VQA)課題を解決するための新しい手法を提案する。
自動運転において、VQAはシステムが周囲について理解し、推論できるようにする上で重要な役割を担っている。
本稿では,視覚言語モデルと選択的記憶再生と知識蒸留を組み合わせた新しい連続学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 26.413685340816436
- License:
- Abstract: In this paper, we propose a novel approach for solving the Visual Question Answering (VQA) task in autonomous driving by integrating Vision-Language Models (VLMs) with continual learning. In autonomous driving, VQA plays a vital role in enabling the system to understand and reason about its surroundings. However, traditional models often struggle with catastrophic forgetting when sequentially exposed to new driving tasks, such as perception, prediction, and planning, each requiring different forms of knowledge. To address this challenge, we present a novel continual learning framework that combines VLMs with selective memory replay and knowledge distillation, reinforced by task-specific projection layer regularization. The knowledge distillation allows a previously trained model to act as a "teacher" to guide the model through subsequent tasks, minimizing forgetting. Meanwhile, task-specific projection layers calculate the loss based on the divergence of feature representations, ensuring continuity in learning and reducing the shift between tasks. Evaluated on the DriveLM dataset, our framework shows substantial performance improvements, with gains ranging from 21.40% to 32.28% across various metrics. These results highlight the effectiveness of combining continual learning with VLMs in enhancing the resilience and reliability of VQA systems in autonomous driving. We will release our source code.
- Abstract(参考訳): 本稿では,視覚言語モデル(VLM)と連続学習を統合することで,自律運転における視覚質問応答(VQA)タスクの解法を提案する。
自動運転において、VQAはシステムが周囲について理解し、推論できるようにする上で重要な役割を担っている。
しかし、伝統的なモデルは、知覚、予測、計画といった新しい運転タスクに順次露出した場合、それぞれ異なる種類の知識を必要とするとき、破滅的な忘れに苦しむことが多い。
この課題に対処するために,タスク固有のプロジェクション層正規化によって強化された,VLMと選択的メモリ再生と知識蒸留を組み合わせた新しい連続学習フレームワークを提案する。
知識蒸留により、事前訓練されたモデルが「教師」として行動し、後続のタスクを通じてモデルを指導し、忘れを最小化することができる。
一方、タスク固有の投影層は、特徴表現のばらつきに基づいて損失を計算し、学習の継続性を確保し、タスク間のシフトを減らす。
DriveLMデータセットに基づいて評価すると、当社のフレームワークはパフォーマンスが大幅に向上し、さまざまなメトリクスで21.40%から32.28%向上した。
これらの結果は、自律運転におけるVQAシステムのレジリエンスと信頼性を高めるために、連続学習とVLMを組み合わせることの有効性を強調した。
私たちはソースコードをリリースします。
関連論文リスト
- LeapVAD: A Leap in Autonomous Driving via Cognitive Perception and Dual-Process Thinking [13.898774643126174]
LeapVADは、運転決定に影響を及ぼす重要な交通要素を特定し、焦点を合わせるための人間中心のメカニズムを実装している。
システムは、論理的推論を通じて駆動経験を蓄積する分析プロセス(System-II)と、微調整と少数ショット学習によってこの知識を洗練するヒューリスティックプロセス(System-I)から構成される。
論文 参考訳(メタデータ) (2025-01-14T14:49:45Z) - VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision [20.43366384946928]
教師としての視覚言語モデル(VLM)。
VLM-ADは、nuScenesデータセットの計画精度と衝突率の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-12-19T01:53:36Z) - Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。
ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文 参考訳(メタデータ) (2024-11-07T09:17:50Z) - Mind the Interference: Retaining Pre-trained Knowledge in Parameter Efficient Continual Learning of Vision-Language Models [79.28821338925947]
ドメインクラスのインクリメンタル学習は現実的だが、継続的な学習シナリオである。
これらの多様なタスクに対処するために、事前訓練されたビジョンランゲージモデル(VLM)を導入し、その強力な一般化性を実現する。
事前訓練されたVLMにエンコードされた知識は、新しいタスクに適応する際に妨げられ、固有のゼロショット能力を損なう。
既存の手法では、膨大なオーバーヘッドを必要とする余分なデータセットに知識蒸留でVLMをチューニングすることで、この問題に対処している。
我々は、事前学習した知識を保持できるDIKI(Distributed-Aware Interference-free Knowledge Integration)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-07T12:19:37Z) - Enhancing Continual Learning in Visual Question Answering with Modality-Aware Feature Distillation [48.071162716120334]
入力のマルチモーダルな性質がモデルの学習力学に与える影響について検討する。
本研究の目的は, モダリティ対応型特徴蒸留 (MAFED) 方式を提案することである。
論文 参考訳(メタデータ) (2024-06-27T16:12:57Z) - Visual Exemplar Driven Task-Prompting for Unified Perception in
Autonomous Driving [100.3848723827869]
本稿では,タスク固有のプロンプトを通じて視覚的見本を提示する,効果的なマルチタスクフレームワークVE-Promptを提案する。
具体的には、境界ボックスと色に基づくマーカーに基づいて視覚的な例を生成し、ターゲットカテゴリの正確な視覚的外観を提供する。
我々は変圧器をベースとしたエンコーダと畳み込み層を橋渡しし、自律運転における効率的かつ正確な統合認識を実現する。
論文 参考訳(メタデータ) (2023-03-03T08:54:06Z) - Hierarchically Structured Task-Agnostic Continual Learning [0.0]
本研究では,連続学習のタスク非依存的な視点を取り入れ,階層的情報理論の最適性原理を考案する。
我々は,情報処理経路の集合を作成することで,忘れを緩和する,Mixture-of-Variational-Experts層と呼ばれるニューラルネットワーク層を提案する。
既存の連続学習アルゴリズムのようにタスク固有の知識を必要としない。
論文 参考訳(メタデータ) (2022-11-14T19:53:15Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。