論文の概要: Precise Drive with VLM: First Prize Solution for PRCV 2024 Drive LM challenge
- arxiv url: http://arxiv.org/abs/2411.02999v1
- Date: Tue, 05 Nov 2024 11:00:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 14:59:43.169777
- Title: Precise Drive with VLM: First Prize Solution for PRCV 2024 Drive LM challenge
- Title(参考訳): VLMによる精密ドライブ:PRCV 2024 Drive LMチャレンジのノーベル賞
- Authors: Bin Huang, Siyu Wang, Yuanpeng Chen, Yidan Wu, Hui Song, Zifan Ding, Jing Leng, Chengpeng Liang, Peng Xue, Junliang Zhang, Tiankun Zhao,
- Abstract要約: 本報告ではPRCVチャレンジの方法論について概説する。
シナリオの認知と意思決定に重点を置いています。
我々のモデルは0.6064のスコアを獲得し、競技の最終結果の最初の賞を確保した。
- 参考スコア(独自算出の注目度): 8.941623670652389
- License:
- Abstract: This technical report outlines the methodologies we applied for the PRCV Challenge, focusing on cognition and decision-making in driving scenarios. We employed InternVL-2.0, a pioneering open-source multi-modal model, and enhanced it by refining both the model input and training methodologies. For the input data, we strategically concatenated and formatted the multi-view images. It is worth mentioning that we utilized the coordinates of the original images without transformation. In terms of model training, we initially pre-trained the model on publicly available autonomous driving scenario datasets to bolster its alignment capabilities of the challenge tasks, followed by fine-tuning on the DriveLM-nuscenes Dataset. During the fine-tuning phase, we innovatively modified the loss function to enhance the model's precision in predicting coordinate values. These approaches ensure that our model possesses advanced cognitive and decision-making capabilities in driving scenarios. Consequently, our model achieved a score of 0.6064, securing the first prize on the competition's final results.
- Abstract(参考訳): 本技術報告では,運転シナリオにおける認知と意思決定に焦点をあて,PRCVチャレンジに適用した方法論について概説する。
我々は、オープンソースのマルチモーダルモデルの先駆者であるInternVL-2.0を採用し、モデル入力とトレーニング手法の両方を改良して改善した。
入力データに対して,マルチビュー画像の戦略的結合とフォーマットを行った。
変換なしで元の画像の座標を利用したことに留意すべきである。
モデルトレーニングに関して、私たちはまず、課題タスクのアライメント機能を強化するために、公開可能な自動運転シナリオデータセット上でモデルを事前トレーニングし、続いてDriveLM-nuscenes Datasetを微調整しました。
微調整期間中に、座標値の予測におけるモデルの精度を高めるために、損失関数を革新的に修正した。
これらのアプローチは、シナリオの駆動において、私たちのモデルが高度な認知と意思決定能力を持っていることを保証します。
その結果,本モデルでは0.6064のスコアを達成し,最終結果に対する第1位を確保できた。
関連論文リスト
- AdaOcc: Adaptive Forward View Transformation and Flow Modeling for 3D Occupancy and Flow Prediction [56.72301849123049]
CVPR 2024 における nuScenes Open-Occ データセットチャレンジにおいて,視覚中心の3次元活動とフロー予測トラックのソリューションを提案する。
我々の革新的なアプローチは、適応的なフォワード・ビュー・トランスフォーメーションとフロー・モデリングを取り入れることで、3次元の占有率とフロー予測を向上させる2段階のフレームワークである。
提案手法は回帰と分類を組み合わせることで,様々な場面におけるスケールの変動に対処し,予測フローを利用して将来のフレームに現行のボクセル特徴をワープする。
論文 参考訳(メタデータ) (2024-07-01T16:32:15Z) - SalFoM: Dynamic Saliency Prediction with Video Foundation Models [37.25208752620703]
ビデオサリエンシ予測(VSP)は人間の視覚システムと比較して有望な性能を示した。
本稿では,新しいエンコーダデコーダビデオトランスアーキテクチャであるSalFoMを紹介する。
本モデルはUnMasked Teacher(UMT)抽出器を使用し,異種デコーダを意識した時間変換器を提案する。
論文 参考訳(メタデータ) (2024-04-03T22:38:54Z) - Data Quality Aware Approaches for Addressing Model Drift of Semantic
Segmentation Models [1.6385815610837167]
本研究では,戦闘モデルドリフトに対する2つの顕著な品質意識戦略について検討した。
前者は画像品質評価の指標を活用して、厳密に高品質なトレーニングデータを選択し、モデルの堅牢性を向上させる。
後者は、既存のモデルから学んだベクトル機能を利用して、将来のデータの選択をガイドし、モデルの以前の知識と整合させる。
論文 参考訳(メタデータ) (2024-02-11T18:01:52Z) - Ensemble Modeling for Multimodal Visual Action Recognition [50.38638300332429]
マルチモーダル動作認識のためのアンサンブルモデリング手法を提案する。
我々は,MECCANO[21]データセットの長期分布を処理するために,焦点損失の変種を用いて,個別のモダリティモデルを個別に訓練する。
論文 参考訳(メタデータ) (2023-08-10T08:43:20Z) - 1st Place in ICCV 2023 Workshop Challenge Track 1 on Resource Efficient
Deep Learning for Computer Vision: Budgeted Model Training Challenge [15.213786895534225]
本稿では、プロファイルとインスタンス化フェーズで構成された、リソースを意識したバックボーン検索フレームワークについて述べる。
限られたリソースの推測精度を高めるために,マルチレゾリューションアンサンブルを用いる。
我々は,コンピュータビジョンに関する国際会議 (ICCV) 2023 Workshop Challenge Track 1 on Resource Efficient Deep Learning for Computer Vision (RCV) で優勝した。
論文 参考訳(メタデータ) (2023-08-09T05:38:18Z) - Towards Efficient Task-Driven Model Reprogramming with Foundation Models [52.411508216448716]
ビジョンファウンデーションモデルは、非常に大きなモデルキャパシティと幅広いトレーニングデータから恩恵を受け、印象的なパワーを示す。
しかし、実際には、下流のシナリオは限られた計算資源や効率上の考慮のため、小さなモデルしかサポートできない。
これは、ファンデーションモデルの現実的な応用に重要な課題をもたらします。
論文 参考訳(メタデータ) (2023-04-05T07:28:33Z) - Confidence Attention and Generalization Enhanced Distillation for
Continuous Video Domain Adaptation [62.458968086881555]
連続ビデオドメイン適応(CVDA、Continuous Video Domain Adaptation)は、ソースモデルが個々の変更対象ドメインに適応する必要があるシナリオである。
CVDAの課題に対処するため,遺伝子組み換え型自己知識解離(CART)を用いた信頼性保証ネットワークを提案する。
論文 参考訳(メタデータ) (2023-03-18T16:40:10Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Source-Free Open Compound Domain Adaptation in Semantic Segmentation [99.82890571842603]
SF-OCDAでは、ターゲットモデルを学習するために、ソース事前訓練されたモデルとターゲットデータのみが利用可能である。
そこで我々は,Cross-Patch Style Swap (CPSS)を提案する。
提案手法は,C-Drivingデータセット上で最先端の結果を生成する。
論文 参考訳(メタデータ) (2021-06-07T08:38:41Z) - Incorporating Orientations into End-to-end Driving Model for Steering
Control [12.163394005517766]
本稿では,自動運転のための深層ニューラルネットワークモデルを提案する。
単眼画像シーケンスを入力として取得し、直接ステアリング制御角度を生成します。
私たちのデータセットには、都市、国、オフロードなどの複数の運転シナリオが含まれます。
論文 参考訳(メタデータ) (2021-03-10T03:14:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。