論文の概要: Unlock the Power of Unlabeled Data in Language Driving Model
- arxiv url: http://arxiv.org/abs/2503.10586v2
- Date: Sat, 15 Mar 2025 06:25:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:36:27.559680
- Title: Unlock the Power of Unlabeled Data in Language Driving Model
- Title(参考訳): 言語駆動モデルにおけるラベルなしデータのパワーのアンロック
- Authors: Chaoqun Wang, Jie Yang, Xiaobin Hong, Ruimao Zhang,
- Abstract要約: 我々は,従来の最先端手法よりも優れたシーン質問応答を駆動する強力な言語駆動モデル(LDM)を構築した。
LDMはラベル付きデータに制限のある44.85%のパフォーマンスを達成し、ラベル付きデータを使用すると54.27%まで増加し、完全なデータセットでトレーニングされたモデルはDriveLMベンチマークで60.68%に達した。
- 参考スコア(独自算出の注目度): 23.648749606793118
- License:
- Abstract: Recent Vision-based Large Language Models~(VisionLLMs) for autonomous driving have seen rapid advancements. However, such promotion is extremely dependent on large-scale high-quality annotated data, which is costly and labor-intensive. To address this issue, we propose unlocking the value of abundant yet unlabeled data to improve the language-driving model in a semi-supervised learning manner. Specifically, we first introduce a series of template-based prompts to extract scene information, generating questions that create pseudo-answers for the unlabeled data based on a model trained with limited labeled data. Next, we propose a Self-Consistency Refinement method to improve the quality of these pseudo-annotations, which are later used for further training. By utilizing a pre-trained VisionLLM (e.g., InternVL), we build a strong Language Driving Model (LDM) for driving scene question-answering, outperforming previous state-of-the-art methods. Extensive experiments on the DriveLM benchmark show that our approach performs well with just 5% labeled data, achieving competitive performance against models trained with full datasets. In particular, our LDM achieves 44.85% performance with limited labeled data, increasing to 54.27% when using unlabeled data, while models trained with full datasets reach 60.68% on the DriveLM benchmark.
- Abstract(参考訳): 近年,自動運転のためのビジョンベース大規模言語モデル~(VisionLLM)が急速に進歩している。
しかし、このようなプロモーションは、コストが高く、労働集約的な、大規模で高品質な注釈付きデータに非常に依存している。
この問題に対処するために,豊富なラベルのないデータの価値を解放し,半教師付き学習方式で言語駆動モデルを改善することを提案する。
具体的には、まずテンプレートベースの一連のプロンプトを導入してシーン情報を抽出し、限られたラベル付きデータで訓練されたモデルに基づいてラベル付きデータに対する疑似回答を生成する質問を生成する。
次に,これらの擬似アノテーションの品質向上のための自己整合化手法を提案する。
事前学習したVisionLLM(例えば、InternVL)を利用して、シーン問合せを駆動する強力な言語駆動モデル(LDM)を構築し、従来の最先端手法よりも優れている。
DriveLMベンチマークの大規模な実験によると、私たちのアプローチは5%のラベル付きデータでうまく機能し、完全なデータセットでトレーニングされたモデルと競合する性能を実現している。
特に、当社のLCMはラベル付きデータに制限のある44.85%のパフォーマンスを達成し、ラベルなしデータを使用すると54.27%まで増加し、完全なデータセットでトレーニングされたモデルはDriveLMベンチマークで60.68%に達した。
関連論文リスト
- Scenario Understanding of Traffic Scenes Through Large Visual Language Models [0.8437187555622164]
大規模ビジュアル言語モデル(LVLM)は、画像解析とコンテキストクエリによる分類を自動化することで、魅力的なソリューションを提供する。
本研究では,LVLMが社内データセットとBDD100Kの両方で都市交通シーンを理解し,分類する能力を評価する。
我々は、最先端モデルを統合するスケーラブルなキャプションパイプラインを提案し、新しいデータセットに柔軟なデプロイを可能にする。
論文 参考訳(メタデータ) (2025-01-28T18:23:12Z) - Language Models as Continuous Self-Evolving Data Engineers [32.67875951851165]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示している。
従来のトレーニングアプローチは、専門家ラベル付きデータに大きく依存しています。
我々はLANCEという新しいパラダイムを提案し、LLMはデータの自動生成、クリーニング、レビュー、注釈付けによって自らを訓練することができる。
論文 参考訳(メタデータ) (2024-12-19T18:28:41Z) - Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。
LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。
フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文 参考訳(メタデータ) (2024-09-10T00:59:18Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。