論文の概要: The System Description of CPS Team for Track on Driving with Language of CVPR 2024 Autonomous Grand Challenge
- arxiv url: http://arxiv.org/abs/2509.11071v1
- Date: Sun, 14 Sep 2025 03:37:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.898586
- Title: The System Description of CPS Team for Track on Driving with Language of CVPR 2024 Autonomous Grand Challenge
- Title(参考訳): CVPR 2024 自律的グランドチャレンジの言語による運転追跡のためのCPSチームのシステム記述
- Authors: Jinghan Peng, Jingwen Wang, Xing Yu, Dehui Du,
- Abstract要約: 本報告では,CVPR 2024autonomous Grand Challengeのドライビング・ウィズ・ランゲージトラックに視覚言語モデルシステムを用いたアプローチの概要について述べる。
DriveLM-nuScenesデータセットをモデルトレーニングに使用しています。
オープンソースの深度推定モデルから深度情報を統合して、トレーニングと推論のプロセスを強化する。
- 参考スコア(独自算出の注目度): 10.577222594790333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This report outlines our approach using vision language model systems for the Driving with Language track of the CVPR 2024 Autonomous Grand Challenge. We have exclusively utilized the DriveLM-nuScenes dataset for training our models. Our systems are built on the LLaVA models, which we enhanced through fine-tuning with the LoRA and DoRA methods. Additionally, we have integrated depth information from open-source depth estimation models to enrich the training and inference processes. For inference, particularly with multiple-choice and yes/no questions, we adopted a Chain-of-Thought reasoning approach to improve the accuracy of the results. This comprehensive methodology enabled us to achieve a top score of 0.7799 on the validation set leaderboard, ranking 1st on the leaderboard.
- Abstract(参考訳): 本報告では,CVPR 2024autonomous Grand Challengeのドライビング・ウィズ・ランゲージトラックに視覚言語モデルシステムを用いたアプローチの概要について述べる。
DriveLM-nuScenesデータセットをモデルトレーニングに使用しています。
我々のシステムはLLaVAモデルに基づいて構築されており、LoRA法とDoRA法を微調整することで拡張した。
さらに、トレーニングと推論のプロセスを強化するために、オープンソースの深度推定モデルから深度情報を統合しています。
推論には、特に複数選択とイエス/ノー質問では、結果の正確性を改善するためにChain-of-Thought推論アプローチを採用しました。
この総合的な方法論により、検証セットのリーダボードで0.7799のスコアを獲得し、リーダボードで1位にランクインしました。
関連論文リスト
- Seewo's Submission to MLC-SLM: Lessons learned from Speech Reasoning Language Models [4.917936997225074]
MLC-SLM(Multilingual Conversational Speech Language Model Challenge)の両トラック用システム
ASRのための音声モデルにおいて、推論と自己補正を明確に強化する多段階学習パイプラインを導入する。
論文 参考訳(メタデータ) (2025-06-16T09:42:05Z) - AlphaMaze: Enhancing Large Language Models' Spatial Intelligence via GRPO [0.0]
大きな言語モデル(LLM)は、言語処理において印象的な能力を示してきたが、視覚的な空間的推論を必要とするタスクにしばしば苦労している。
迷路ナビゲーションのための視覚的推論能力を備えた標準LLMの2段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-20T16:05:18Z) - Driving with InternVL: Oustanding Champion in the Track on Driving with Language of the Autonomous Grand Challenge at CVPR 2024 [23.193095382776725]
本報告では,CVPR 2024autonomous Grand Challenge(CVPR 2024 Autonomous Grand Challenge)の走行言語トラックに採用した手法について述べる。
我々は、強力なオープンソースマルチモーダルモデルであるInternVL-1.5を使用し、競合データセットであるDriveLM-nuScenesをフルに微調整した。
私たちのシングルモデルは最終リードボードで0.6002を獲得しました。
論文 参考訳(メタデータ) (2024-12-10T07:13:39Z) - Enhancing End-to-End Autonomous Driving with Latent World Model [78.22157677787239]
本稿では,LAW(Latent World Model)を用いたエンドツーエンド運転のための自己教師型学習手法を提案する。
LAWは、現在の特徴とエゴ軌道に基づいて将来のシーン機能を予測する。
この自己監督タスクは、知覚のない、知覚に基づくフレームワークにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-12T17:59:21Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z) - The Wisdom of Hindsight Makes Language Models Better Instruction
Followers [84.9120606803906]
強化学習は、人間のフィードバックによる指示に合うように、大きな言語モデルを微調整することに成功している。
そこで本稿では,本論文で提案するアプローチとして,原文を緩和することでフィードバックを指導に変換する手法と,教師付き手法によるアライメント向上のためのモデルをトレーニングする手法を提案する。
言語モデルと命令を整合させる新しいアルゴリズムであるHIR(Hindsight Instruction Relabeling)を提案する。
論文 参考訳(メタデータ) (2023-02-10T12:16:38Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - Two-Stream Consensus Network: Submission to HACS Challenge 2021
Weakly-Supervised Learning Track [78.64815984927425]
弱い監督による時間的行動ローカライゼーションの目標は、ビデオの興味ある動作を時間的に特定し、分類することである。
この課題では,2ストリームコンセンサスネットワーク(TSCN)を主要なフレームワークとして採用しています。
この課題では,本手法が今後の学術研究のベースラインとなることを期待して,第2位にランクインした。
論文 参考訳(メタデータ) (2021-06-21T03:36:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。