論文の概要: Driving with InternVL: Oustanding Champion in the Track on Driving with Language of the Autonomous Grand Challenge at CVPR 2024
- arxiv url: http://arxiv.org/abs/2412.07247v1
- Date: Tue, 10 Dec 2024 07:13:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:37:10.497580
- Title: Driving with InternVL: Oustanding Champion in the Track on Driving with Language of the Autonomous Grand Challenge at CVPR 2024
- Title(参考訳): CVPR 2024で「インターンVL」が優勝
- Authors: Jiahan Li, Zhiqi Li, Tong Lu,
- Abstract要約: 本報告では,CVPR 2024autonomous Grand Challenge(CVPR 2024 Autonomous Grand Challenge)の走行言語トラックに採用した手法について述べる。
我々は、強力なオープンソースマルチモーダルモデルであるInternVL-1.5を使用し、競合データセットであるDriveLM-nuScenesをフルに微調整した。
私たちのシングルモデルは最終リードボードで0.6002を獲得しました。
- 参考スコア(独自算出の注目度): 23.193095382776725
- License:
- Abstract: This technical report describes the methods we employed for the Driving with Language track of the CVPR 2024 Autonomous Grand Challenge. We utilized a powerful open-source multimodal model, InternVL-1.5, and conducted a full-parameter fine-tuning on the competition dataset, DriveLM-nuScenes. To effectively handle the multi-view images of nuScenes and seamlessly inherit InternVL's outstanding multimodal understanding capabilities, we formatted and concatenated the multi-view images in a specific manner. This ensured that the final model could meet the specific requirements of the competition task while leveraging InternVL's powerful image understanding capabilities. Meanwhile, we designed a simple automatic annotation strategy that converts the center points of objects in DriveLM-nuScenes into corresponding bounding boxes. As a result, our single model achieved a score of 0.6002 on the final leadboard.
- Abstract(参考訳): 本技術報告では,CVPR 2024autonomous Grand Challenge(CVPR 2024autonomous Grand Challenge,CVPR 2024 Autonomous Grand Challenge)の走行言語トラックに採用した手法について述べる。
我々は、強力なオープンソースマルチモーダルモデルであるInternVL-1.5を使用し、競合データセットであるDriveLM-nuScenesのフルパラメータ微調整を行った。
nuScenesのマルチビューイメージを効果的に処理し、InternVLの優れたマルチモーダル理解能力をシームレスに継承するために、特定の方法で複数のビューイメージをフォーマット・連結した。
これにより、InternVLの強力な画像理解機能を活用しながら、最終モデルが競合タスクの特定の要件を満たすことが保証された。
一方,DriveLM-nuScenesにおけるオブジェクトの中心点を対応するバウンディングボックスに変換するシンプルな自動アノテーション戦略を設計した。
その結果,本モデルでは最終リードボードで0.6002のスコアを得た。
関連論文リスト
- Precise Drive with VLM: First Prize Solution for PRCV 2024 Drive LM challenge [8.941623670652389]
本報告ではPRCVチャレンジの方法論について概説する。
シナリオの認知と意思決定に重点を置いています。
我々のモデルは0.6064のスコアを獲得し、競技の最終結果の最初の賞を確保した。
論文 参考訳(メタデータ) (2024-11-05T11:00:55Z) - How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites [114.22835695929682]
InternVL 1.5はオープンソースのマルチモーダル大言語モデル(MLLM)である。
マルチモーダル理解において、オープンソースとプロプライエタリな商用モデルの間の能力ギャップを埋める。
論文 参考訳(メタデータ) (2024-04-25T17:59:19Z) - Multi-Frame, Lightweight & Efficient Vision-Language Models for Question Answering in Autonomous Driving [0.0]
我々は,自律運転のための視覚質問応答を行う,効率的で軽量な多フレーム視覚言語モデルを開発した。
従来のアプローチと比較して、EM-VLM4ADは少なくとも10倍のメモリと浮動小数点演算を必要とする。
論文 参考訳(メタデータ) (2024-03-28T21:18:33Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z) - Video Task Decathlon: Unifying Image and Video Tasks in Autonomous
Driving [85.62076860189116]
Video Task Decathlon (VTD)には、分類、セグメンテーション、ローカライゼーション、オブジェクトとピクセルの関連にまたがる10の代表的な画像とビデオタスクが含まれている。
我々は、単一の構造と10タスクすべてに一組の重みを持つ統合ネットワークVTDNetを開発した。
論文 参考訳(メタデータ) (2023-09-08T16:33:27Z) - 1st Place in ICCV 2023 Workshop Challenge Track 1 on Resource Efficient
Deep Learning for Computer Vision: Budgeted Model Training Challenge [15.213786895534225]
本稿では、プロファイルとインスタンス化フェーズで構成された、リソースを意識したバックボーン検索フレームワークについて述べる。
限られたリソースの推測精度を高めるために,マルチレゾリューションアンサンブルを用いる。
我々は,コンピュータビジョンに関する国際会議 (ICCV) 2023 Workshop Challenge Track 1 on Resource Efficient Deep Learning for Computer Vision (RCV) で優勝した。
論文 参考訳(メタデータ) (2023-08-09T05:38:18Z) - Q-YOLOP: Quantization-aware You Only Look Once for Panoptic Driving
Perception [6.3709120604927945]
本稿では, 物体検出, 乾燥領域分割, レーン線分割のための効率的かつ定量的なパン光学駆動認識モデル(Q-YOLOP)を提案する。
提案モデルでは,オブジェクト検出用 mAP@0.5 とセグメンテーション用 mIoU の mAP@0.5 およびセグメンテーション用 mIoU を用いて,最先端性能を実現する。
論文 参考訳(メタデータ) (2023-07-10T13:02:46Z) - Visual Exemplar Driven Task-Prompting for Unified Perception in
Autonomous Driving [100.3848723827869]
本稿では,タスク固有のプロンプトを通じて視覚的見本を提示する,効果的なマルチタスクフレームワークVE-Promptを提案する。
具体的には、境界ボックスと色に基づくマーカーに基づいて視覚的な例を生成し、ターゲットカテゴリの正確な視覚的外観を提供する。
我々は変圧器をベースとしたエンコーダと畳み込み層を橋渡しし、自律運転における効率的かつ正確な統合認識を実現する。
論文 参考訳(メタデータ) (2023-03-03T08:54:06Z) - CERBERUS: Simple and Effective All-In-One Automotive Perception Model
with Multi Task Learning [4.622165486890318]
車両内組み込みコンピューティングプラットフォームは、個々のタスクに対して重いモデルを実行するのに必要な計算労力に対処できない。
CERBERUSは、マルチタスク学習アプローチを利用して、単一推論のコストで複数の知覚タスクの実行を可能にする軽量モデルである。
論文 参考訳(メタデータ) (2022-10-03T08:17:26Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。