Fugu-MT 論文翻訳(概要): Revisiting Birds Eye View Perception Models with Frozen Foundation Models: DINOv2 and Metric3Dv2

論文の概要: Revisiting Birds Eye View Perception Models with Frozen Foundation Models: DINOv2 and Metric3Dv2

arxiv url: http://arxiv.org/abs/2501.08118v1
Date: Tue, 14 Jan 2025 13:51:14 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-15 17:02:04.493233
Title: Revisiting Birds Eye View Perception Models with Frozen Foundation Models: DINOv2 and Metric3Dv2
Title（参考訳）: 凍結基盤モデルによる鳥の視線知覚モデルの再検討:DINOv2とMetric3Dv2
Authors: Seamie Hayes, Ganesh Sistu, Ciarán Eising,
Abstract要約: 我々は,Metric3Dv2の深度情報を,Simple-BEVアーキテクチャに組み込まれたPseudoLiDARポイントクラウドとして,革新的な応用を紹介した。この統合により、カメラのみのモデルに比べて+3 IoUが改善される。
参考スコア（独自算出の注目度）: 6.42131197643513
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Birds Eye View perception models require extensive data to perform and generalize effectively. While traditional datasets often provide abundant driving scenes from diverse locations, this is not always the case. It is crucial to maximize the utility of the available training data. With the advent of large foundation models such as DINOv2 and Metric3Dv2, a pertinent question arises: can these models be integrated into existing model architectures to not only reduce the required training data but surpass the performance of current models? We choose two model architectures in the vehicle segmentation domain to alter: Lift-Splat-Shoot, and Simple-BEV. For Lift-Splat-Shoot, we explore the implementation of frozen DINOv2 for feature extraction and Metric3Dv2 for depth estimation, where we greatly exceed the baseline results by 7.4 IoU while utilizing only half the training data and iterations. Furthermore, we introduce an innovative application of Metric3Dv2's depth information as a PseudoLiDAR point cloud incorporated into the Simple-BEV architecture, replacing traditional LiDAR. This integration results in a +3 IoU improvement compared to the Camera-only model.
Abstract（参考訳）: Birds Eye View知覚モデルは、効果的に実行および一般化するために広範囲なデータを必要とする。伝統的なデータセットは、様々な場所から豊富な運転シーンを提供することが多いが、必ずしもそうではない。利用可能なトレーニングデータの有効性を最大化することが重要です。 DINOv2やMetric3Dv2のような大規模な基盤モデルの出現によって、関連する疑問が持ち上がっている。これらのモデルは既存のモデルアーキテクチャに統合され、必要なトレーニングデータを削減できるだけでなく、現在のモデルの性能を上回ることができるのか? 車両セグメンテーション領域では,Lift-Splat-Shoot と Simple-BEV の2つのモデルアーキテクチャを選択する。 Lift-Splat-Shootでは,特徴抽出のための凍結DINOv2と深度推定のためのMetric3Dv2の実装について検討した。さらに,従来のLiDARに代わるSimple-BEVアーキテクチャに組み込まれたPseudoLiDARポイントクラウドとして,Metric3Dv2の深度情報の革新的な応用を紹介した。この統合により、カメラのみのモデルに比べて+3 IoUが改善される。

関連論文リスト

Enhancing Steering Estimation with Semantic-Aware GNNs [41.89219383258699]
ハイブリッドアーキテクチャは、時間的モデリングのための3Dニューラルネットワークモデルとリカレントニューラルネットワーク(RNN)を組み合わせる。我々は4つのハイブリッド3Dモデルを評価し、いずれも2Dのみのベースラインを上回った。我々は、KITTIデータセットに対するアプローチを検証し、2Dのみのモデルよりも71%改善した。
論文参考訳（メタデータ） (2025-03-21T13:58:08Z)
Label-Efficient LiDAR Semantic Segmentation with 2D-3D Vision Transformer Adapters [32.21090169762889]
BALViTは、凍結視覚モデルを利用して強力なLiDARエンコーダを学習するためのアモーダル機能エンコーダである。コードとモデルは、http://balvit.cs.uni-freiburg.deで公開しています。
論文参考訳（メタデータ） (2025-03-05T09:30:49Z)
YOLO-RD: Introducing Relevant and Compact Explicit Knowledge to YOLO by Retriever-Dictionary [12.39040757106137]
この問題に対処するために,革新的なem textbfRetriever-emtextbfDictionary (RD) モジュールを導入する。このアーキテクチャにより、YOLOベースのモデルは、データセットの洞察を含むDictionaryから機能を効率的に取得できる。
論文参考訳（メタデータ） (2024-10-20T09:38:58Z)
POINTS: Improving Your Vision-language Model with Affordable Strategies [28.611705477757454]
視覚言語モデルの最新の進歩を利用して、ロバストなベースラインモデルを訓練する。我々は、パープレキシティーを用いて事前学習データをフィルタリングし、トレーニングのための最も低いパープレキシティーデータを選択する。視覚的なインストラクションチューニングでは、さまざまなデータセットでモデルスープを使用して、より多くのデータセットを追加することで、限界的な改善を実現しました。
論文参考訳（メタデータ） (2024-09-07T13:41:37Z)
DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文参考訳（メタデータ） (2024-06-17T21:15:13Z)
Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文参考訳（メタデータ） (2024-02-07T13:41:53Z)
Leveraging Large-Scale Pretrained Vision Foundation Models for Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文参考訳（メタデータ） (2023-11-03T15:41:15Z)
LiDAR Data Synthesis with Denoising Diffusion Probabilistic Models [1.1965844936801797]
3D LiDARデータの生成モデリングは、自律移動ロボットに有望な応用をもたらす新たな課題である。我々は,多種多様かつ高忠実な3Dシーンポイント雲を生成可能な,LiDARデータのための新しい生成モデルR2DMを提案する。本手法は拡散確率モデル (DDPM) を用いて構築され, 生成モデルフレームワークにおいて顕著な結果が得られた。
論文参考訳（メタデータ） (2023-09-17T12:26:57Z)
Interpretable 2D Vision Models for 3D Medical Images [47.75089895500738]
本研究では,3次元画像処理における中間特徴表現を用いた2次元ネットワークの適応手法を提案する。我々は、ベンチマークとして3D MedMNISTデータセットと、既存の手法に匹敵する数百の高分解能CTまたはMRIスキャンからなる2つの実世界のデータセットを示す。
論文参考訳（メタデータ） (2023-07-13T08:27:09Z)
Knowledge Distillation from 3D to Bird's-Eye-View for LiDAR Semantic Segmentation [6.326177388323946]
本研究では,3次元ボクセルモデルからBEVモデルへ豊富な知識を伝達する有効な3D-to-BEV知識蒸留法を開発した。本フレームワークは,主にボクセル-ピラー蒸留モジュールとラベル-重蒸留モジュールの2つのモジュールから構成される。ラベル重量の蒸留は、より高い情報を持つ領域により注意を払うのに役立つ。
論文参考訳（メタデータ） (2023-04-22T13:03:19Z)
Data-Free Adversarial Knowledge Distillation for Graph Neural Networks [62.71646916191515]
グラフ構造化データ(DFAD-GNN)を用いたデータフリー逆知識蒸留のための第1のエンドツーエンドフレームワークを提案する。具体的には、DFAD-GNNは、教師モデルと学生モデルとを2つの識別器とみなし、教師モデルから学生モデルに知識を抽出するために学習グラフを導出するジェネレータという、主に3つの成分からなる生成的対向ネットワークを採用している。我々のDFAD-GNNは、グラフ分類タスクにおける最先端のデータフリーベースラインを大幅に上回っている。
論文参考訳（メタデータ） (2022-05-08T08:19:40Z)
Secrets of 3D Implicit Object Shape Reconstruction in the Wild [92.5554695397653]
コンピュータビジョン、ロボティクス、グラフィックスの様々な用途において、高精細な3Dオブジェクトをスパースから再構築することは重要です。最近の神経暗黙的モデリング法は、合成データセットまたは高密度データセットで有望な結果を示す。しかし、粗末でノイズの多い実世界のデータではパフォーマンスが悪い。本論文では, 一般的な神経暗黙モデルの性能低下の根本原因を解析する。
論文参考訳（メタデータ） (2021-01-18T03:24:48Z)
Model Reuse with Reduced Kernel Mean Embedding Specification [70.044322798187]
現在のアプリケーションで有用なモデルを見つけるための2段階のフレームワークを提案する。アップロードフェーズでは、モデルがプールにアップロードされている場合、モデルの仕様としてカーネル平均埋め込み(RKME)を縮小する。デプロイフェーズでは、RKME仕様の値に基づいて、現在のタスクと事前訓練されたモデルの関連性を測定する。
論文参考訳（メタデータ） (2020-01-20T15:15:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。