論文の概要: Driving with InternVL: Oustanding Champion in the Track on Driving with Language of the Autonomous Grand Challenge at CVPR 2024
- arxiv url: http://arxiv.org/abs/2412.07247v1
- Date: Tue, 10 Dec 2024 07:13:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 22:09:45.268466
- Title: Driving with InternVL: Oustanding Champion in the Track on Driving with Language of the Autonomous Grand Challenge at CVPR 2024
- Title(参考訳): CVPR 2024で「インターンVL」が優勝
- Authors: Jiahan Li, Zhiqi Li, Tong Lu,
- Abstract要約: 本報告では,CVPR 2024autonomous Grand Challenge(CVPR 2024 Autonomous Grand Challenge)の走行言語トラックに採用した手法について述べる。
我々は、強力なオープンソースマルチモーダルモデルであるInternVL-1.5を使用し、競合データセットであるDriveLM-nuScenesをフルに微調整した。
私たちのシングルモデルは最終リードボードで0.6002を獲得しました。
- 参考スコア(独自算出の注目度): 23.193095382776725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This technical report describes the methods we employed for the Driving with Language track of the CVPR 2024 Autonomous Grand Challenge. We utilized a powerful open-source multimodal model, InternVL-1.5, and conducted a full-parameter fine-tuning on the competition dataset, DriveLM-nuScenes. To effectively handle the multi-view images of nuScenes and seamlessly inherit InternVL's outstanding multimodal understanding capabilities, we formatted and concatenated the multi-view images in a specific manner. This ensured that the final model could meet the specific requirements of the competition task while leveraging InternVL's powerful image understanding capabilities. Meanwhile, we designed a simple automatic annotation strategy that converts the center points of objects in DriveLM-nuScenes into corresponding bounding boxes. As a result, our single model achieved a score of 0.6002 on the final leadboard.
- Abstract(参考訳): 本技術報告では,CVPR 2024autonomous Grand Challenge(CVPR 2024autonomous Grand Challenge,CVPR 2024 Autonomous Grand Challenge)の走行言語トラックに採用した手法について述べる。
我々は、強力なオープンソースマルチモーダルモデルであるInternVL-1.5を使用し、競合データセットであるDriveLM-nuScenesのフルパラメータ微調整を行った。
nuScenesのマルチビューイメージを効果的に処理し、InternVLの優れたマルチモーダル理解能力をシームレスに継承するために、特定の方法で複数のビューイメージをフォーマット・連結した。
これにより、InternVLの強力な画像理解機能を活用しながら、最終モデルが競合タスクの特定の要件を満たすことが保証された。
一方,DriveLM-nuScenesにおけるオブジェクトの中心点を対応するバウンディングボックスに変換するシンプルな自動アノテーション戦略を設計した。
その結果,本モデルでは最終リードボードで0.6002のスコアを得た。
関連論文リスト
- MMDrive: Interactive Scene Understanding Beyond Vision with Multi-representational Fusion [39.303609347179695]
本研究では,従来の画像理解を一般化した3Dシーン理解フレームワークに拡張した視覚言語モデルフレームワークMMDriveを提案する。
MMDriveには、占有マップ、LiDAR点雲、テキストシーン記述を含む3つの補完的なモードが組み込まれている。
MMDriveは、既存の自動運転用ビジョン言語モデルよりも大きなパフォーマンス向上を実現しており、BLEU-4スコアは54.56、METEORスコアは41.78、精度スコアは62.7%である。
論文 参考訳(メタデータ) (2025-12-15T10:37:59Z) - WEAVE: Unleashing and Benchmarking the In-context Interleaved Comprehension and Generation [98.47375190901447]
We present WEAVE, the first suite for in-context interleaved cross-modality comprehension and generation。
WeAVE-100kは、370Kのダイアログターンと500Kイメージにまたがる100Kのインターリーブサンプルの大規模なデータセットである。
WeAVEBenchは480の画像に基づいた100のタスクを備えた人手によるベンチマークである。
論文 参考訳(メタデータ) (2025-11-14T16:02:38Z) - The System Description of CPS Team for Track on Driving with Language of CVPR 2024 Autonomous Grand Challenge [10.577222594790333]
本報告では,CVPR 2024autonomous Grand Challengeのドライビング・ウィズ・ランゲージトラックに視覚言語モデルシステムを用いたアプローチの概要について述べる。
DriveLM-nuScenesデータセットをモデルトレーニングに使用しています。
オープンソースの深度推定モデルから深度情報を統合して、トレーニングと推論のプロセスを強化する。
論文 参考訳(メタデータ) (2025-09-14T03:37:17Z) - 2nd Place Solution for CVPR2024 E2E Challenge: End-to-End Autonomous Driving Using Vision Language Model [21.811872482011534]
エンド・ツー・エンドのアーキテクチャ設計と知識のあるVLMを組み合わせることで、駆動タスクにおいて優れた性能が得られることを示す。
私たちの方法では1台のカメラしか使用せず、リーダーボード全体で最高のカメラのみのソリューションである点に注意が必要だ。
論文 参考訳(メタデータ) (2025-09-02T17:52:29Z) - LMAD: Integrated End-to-End Vision-Language Model for Explainable Autonomous Driving [58.535516533697425]
視覚言語モデル(VLM)はシーン理解において有望な能力を示している。
本稿では,自律運転に適した視覚言語フレームワークLMADを提案する。
本フレームワークは,VLMに包括的シーン理解とタスク特化構造を組み込むことにより,最新のエンド・ツー・エンド駆動パラダイムをエミュレートする。
論文 参考訳(メタデータ) (2025-08-17T15:42:54Z) - TS-VLM: Text-Guided SoftSort Pooling for Vision-Language Models in Multi-View Driving Reasoning [1.4087249809872509]
VLM(Vision-Language Models)は、シーン認識、推論、意思決定を強化する可能性を示している。
既存のモデルは、計算オーバーヘッドとマルチビューセンサーデータの非効率な統合に悩まされている。
本稿では,新しいテキストガイドソフトソートプール(TGSSP)モジュールを組み込んだ,TS-VLMという軽量なVLMを提案する。
論文 参考訳(メタデータ) (2025-05-19T03:37:15Z) - Precise Drive with VLM: First Prize Solution for PRCV 2024 Drive LM challenge [8.941623670652389]
本報告ではPRCVチャレンジの方法論について概説する。
シナリオの認知と意思決定に重点を置いています。
我々のモデルは0.6064のスコアを獲得し、競技の最終結果の最初の賞を確保した。
論文 参考訳(メタデータ) (2024-11-05T11:00:55Z) - TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。
モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。
このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文 参考訳(メタデータ) (2024-10-14T13:35:47Z) - How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites [114.22835695929682]
InternVL 1.5はオープンソースのマルチモーダル大言語モデル(MLLM)である。
マルチモーダル理解において、オープンソースとプロプライエタリな商用モデルの間の能力ギャップを埋める。
論文 参考訳(メタデータ) (2024-04-25T17:59:19Z) - Multi-Frame, Lightweight & Efficient Vision-Language Models for Question Answering in Autonomous Driving [0.0]
我々は,自律運転のための視覚質問応答を行う,効率的で軽量な多フレーム視覚言語モデルを開発した。
従来のアプローチと比較して、EM-VLM4ADは少なくとも10倍のメモリと浮動小数点演算を必要とする。
論文 参考訳(メタデータ) (2024-03-28T21:18:33Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z) - Video Task Decathlon: Unifying Image and Video Tasks in Autonomous
Driving [85.62076860189116]
Video Task Decathlon (VTD)には、分類、セグメンテーション、ローカライゼーション、オブジェクトとピクセルの関連にまたがる10の代表的な画像とビデオタスクが含まれている。
我々は、単一の構造と10タスクすべてに一組の重みを持つ統合ネットワークVTDNetを開発した。
論文 参考訳(メタデータ) (2023-09-08T16:33:27Z) - 1st Place in ICCV 2023 Workshop Challenge Track 1 on Resource Efficient
Deep Learning for Computer Vision: Budgeted Model Training Challenge [15.213786895534225]
本稿では、プロファイルとインスタンス化フェーズで構成された、リソースを意識したバックボーン検索フレームワークについて述べる。
限られたリソースの推測精度を高めるために,マルチレゾリューションアンサンブルを用いる。
我々は,コンピュータビジョンに関する国際会議 (ICCV) 2023 Workshop Challenge Track 1 on Resource Efficient Deep Learning for Computer Vision (RCV) で優勝した。
論文 参考訳(メタデータ) (2023-08-09T05:38:18Z) - Q-YOLOP: Quantization-aware You Only Look Once for Panoptic Driving
Perception [6.3709120604927945]
本稿では, 物体検出, 乾燥領域分割, レーン線分割のための効率的かつ定量的なパン光学駆動認識モデル(Q-YOLOP)を提案する。
提案モデルでは,オブジェクト検出用 mAP@0.5 とセグメンテーション用 mIoU の mAP@0.5 およびセグメンテーション用 mIoU を用いて,最先端性能を実現する。
論文 参考訳(メタデータ) (2023-07-10T13:02:46Z) - Visual Exemplar Driven Task-Prompting for Unified Perception in
Autonomous Driving [100.3848723827869]
本稿では,タスク固有のプロンプトを通じて視覚的見本を提示する,効果的なマルチタスクフレームワークVE-Promptを提案する。
具体的には、境界ボックスと色に基づくマーカーに基づいて視覚的な例を生成し、ターゲットカテゴリの正確な視覚的外観を提供する。
我々は変圧器をベースとしたエンコーダと畳み込み層を橋渡しし、自律運転における効率的かつ正確な統合認識を実現する。
論文 参考訳(メタデータ) (2023-03-03T08:54:06Z) - CERBERUS: Simple and Effective All-In-One Automotive Perception Model
with Multi Task Learning [4.622165486890318]
車両内組み込みコンピューティングプラットフォームは、個々のタスクに対して重いモデルを実行するのに必要な計算労力に対処できない。
CERBERUSは、マルチタスク学習アプローチを利用して、単一推論のコストで複数の知覚タスクの実行を可能にする軽量モデルである。
論文 参考訳(メタデータ) (2022-10-03T08:17:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。