Fugu-MT 論文翻訳(概要): Fast and Efficient Transformer-based Method for Bird's Eye View Instance Prediction

論文の概要: Fast and Efficient Transformer-based Method for Bird's Eye View Instance Prediction

arxiv url: http://arxiv.org/abs/2411.06851v1
Date: Mon, 11 Nov 2024 10:35:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:46.42484
Title: Fast and Efficient Transformer-based Method for Bird's Eye View Instance Prediction
Title（参考訳）: 高速かつ高能率な変圧器を用いた鳥眼ビューの予測
Authors: Miguel Antunes-García, Luis M. Bergasa, Santiago Montiel-Marín, Rafael Barea, Fabio Sánchez-García, Ángel Llamazares,
Abstract要約: 本稿では,単純化されたパラダイムに基づく新しいBEVインスタンス予測アーキテクチャを提案する。提案システムは,パラメータ数と推定時間を削減することを目的として,速度を優先する。提案されたアーキテクチャの実装は、PyTorchバージョン2.1のパフォーマンス改善に最適化されている。
参考スコア（独自算出の注目度）: 0.8458547573621331
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Accurate object detection and prediction are critical to ensure the safety and efficiency of self-driving architectures. Predicting object trajectories and occupancy enables autonomous vehicles to anticipate movements and make decisions with future information, increasing their adaptability and reducing the risk of accidents. Current State-Of-The-Art (SOTA) approaches often isolate the detection, tracking, and prediction stages, which can lead to significant prediction errors due to accumulated inaccuracies between stages. Recent advances have improved the feature representation of multi-camera perception systems through Bird's-Eye View (BEV) transformations, boosting the development of end-to-end systems capable of predicting environmental elements directly from vehicle sensor data. These systems, however, often suffer from high processing times and number of parameters, creating challenges for real-world deployment. To address these issues, this paper introduces a novel BEV instance prediction architecture based on a simplified paradigm that relies only on instance segmentation and flow prediction. The proposed system prioritizes speed, aiming at reduced parameter counts and inference times compared to existing SOTA architectures, thanks to the incorporation of an efficient transformer-based architecture. Furthermore, the implementation of the proposed architecture is optimized for performance improvements in PyTorch version 2.1. Code and trained models are available at https://github.com/miguelag99/Efficient-Instance-Prediction
Abstract（参考訳）: 正確なオブジェクト検出と予測は、自動運転アーキテクチャの安全性と効率を確保するために重要である。物体軌道の予測と占有により、自動運転車は動きを予測し、将来の情報で決定し、適応性を高め、事故のリスクを低減することができる。現在の State-Of-The-Art (SOTA) アプローチは、しばしば検出、追跡、予測段階を分離する。近年,Bird's-Eye View(BEV)変換によるマルチカメラ認識システムの特徴表現の改善が進み,車両センサデータから直接環境要素を予測するエンド・ツー・エンドシステムの開発が進められている。しかし、これらのシステムは、しばしば高い処理時間とパラメータの数に悩まされ、現実のデプロイメントに挑戦する。これらの問題に対処するため,本研究では,インスタンスのセグメンテーションとフロー予測のみに依存する,単純化されたパラダイムに基づく,新しいBEVインスタンス予測アーキテクチャを提案する。提案システムは,効率的なトランスフォーマーアーキテクチャの導入により,既存のSOTAアーキテクチャと比較してパラメータ数と推定時間を削減し,速度を優先する。さらに、提案されたアーキテクチャの実装は、PyTorchバージョン2.1のパフォーマンス改善に最適化されている。コードとトレーニングされたモデルはhttps://github.com/miguelag99/Efficient-Instance-Predictionで入手できる。

関連論文リスト

Overcoming Semantic Dilution in Transformer-Based Next Frame Prediction [0.9776703963093367]
ビデオにおける次のフレーム予測は、自律運転、オブジェクトトラッキング、モーション予測といったアプリケーションにとって不可欠である。トランスフォーマーベースの次世代の予測モデルは、注目すべき問題に直面している。本稿では,意味的希釈を効果的に緩和するセマンティック集中型マルチヘッド自己認識アーキテクチャを提案する。
論文参考訳（メタデータ） (2025-01-28T07:12:29Z)
An End-to-End Smart Predict-then-Optimize Framework for Vehicle Relocation Problems in Large-Scale Vehicle Crowd Sensing [10.74565749809106]
車両システムは、旅行要求やルートの性質により、しばしば偏りのあるカバレッジを示す。我々は最適化を予測に統合することで、エンドツーエンドのSmart Predict-then-optize (SPO) フレームワークを開発する。このフレームワークは上流の予測エラーではなく、タスク固有のマッチングによって訓練される。
論文参考訳（メタデータ） (2024-11-27T15:16:22Z)
OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。 OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文参考訳（メタデータ） (2024-09-14T07:44:22Z)
Self-supervised Multi-future Occupancy Forecasting for Autonomous Driving [45.886941596233974]
LiDARで生成された占有グリッドマップ(L-OGM)は、シーン表現のための頑丈な鳥眼ビューを提供する。提案するフレームワークは、生成アーキテクチャの潜在空間においてL-OGM予測を行う。我々は、リアルタイムに高品質な予測を提供するシングルステップデコーダまたは拡散ベースのバッチデコーダを用いて予測をデコードする。
論文参考訳（メタデータ） (2024-07-30T18:37:59Z)
Are Self-Attentions Effective for Time Series Forecasting? [4.990206466948269]
時系列予測は、複数のドメインやさまざまなシナリオにわたるアプリケーションにとって不可欠である。近年の研究では、より単純な線形モデルは、複雑なトランスフォーマーベースのアプローチよりも優れていることが示されている。我々は、新しいアーキテクチャ、クロスアテンションのみの時系列変換器(CATS)を導入する。提案モデルでは,平均二乗誤差が最小であり,既存のモデルに比べてパラメータが少ないため,性能が向上する。
論文参考訳（メタデータ） (2024-05-27T06:49:39Z)
FipTR: A Simple yet Effective Transformer Framework for Future Instance Prediction in Autonomous Driving [8.370230253558159]
Bird's Eye View(BEV)の観点からの将来のインスタンス予測は、自動運転において不可欠な要素である。本稿では,Future Instance Prediction Transformer(FipTR)という,シンプルで効果的なエンドツーエンドフレームワークを提案する。本稿では,Future Instance Prediction Transformer(FipTR)という,シンプルで効果的なエンドツーエンドフレームワークを提案する。
論文参考訳（メタデータ） (2024-04-19T13:08:43Z)
Knowledge-aware Graph Transformer for Pedestrian Trajectory Prediction [15.454206825258169]
歩行者運動軌跡の予測は、自動運転車の経路計画と移動制御に不可欠である。近年の深層学習に基づく予測手法は、主に軌跡履歴や歩行者間の相互作用などの情報を利用する。本稿では,予測性能を向上させるためのグラフトランス構造を提案する。
論文参考訳（メタデータ） (2024-01-10T01:50:29Z)
Unsupervised Domain Adaptation for Self-Driving from Past Traversal Features [69.47588461101925]
本研究では,新しい運転環境に3次元物体検出器を適応させる手法を提案する。提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化する。実世界のデータセットの実験では、大幅な改善が示されている。
論文参考訳（メタデータ） (2023-09-21T15:00:31Z)
Implicit Occupancy Flow Fields for Perception and Prediction in Self-Driving [68.95178518732965]
自動運転車(SDV)は、周囲を認識でき、他の交通参加者の将来の行動を予測できなければならない。既存の作業は、検出されたオブジェクトの軌跡が続くオブジェクト検出を実行するか、シーン全体の密度の高い占有とフローグリッドを予測するかのいずれかである。これは、認識と将来の予測に対する統一されたアプローチを動機付け、単一のニューラルネットワークで時間とともに占有とフローを暗黙的に表現します。
論文参考訳（メタデータ） (2023-08-02T23:39:24Z)
Conditioned Human Trajectory Prediction using Iterative Attention Blocks [70.36888514074022]
本研究では,都市環境における歩行者位置予測を目的とした,簡易かつ効果的な歩行者軌道予測モデルを提案する。我々のモデルは、複数のアテンションブロックとトランスフォーマーを反復的に実行できるニューラルネットワークアーキテクチャである。ソーシャルマスク, 動的モデル, ソーシャルプーリング層, 複雑なグラフのような構造を明示的に導入することなく, SoTAモデルと同等の結果が得られることを示す。
論文参考訳（メタデータ） (2022-06-29T07:49:48Z)
Real-time Object Detection for Streaming Perception [84.2559631820007]
ストリーミング知覚は,ビデオオンライン知覚の1つの指標として,レイテンシと精度を共同評価するために提案される。ストリーミング知覚のためのシンプルで効果的なフレームワークを構築します。提案手法はArgoverse-HDデータセット上での競合性能を実現し,強力なベースラインに比べてAPを4.9%向上させる。
論文参考訳（メタデータ） (2022-03-23T11:33:27Z)
PreTR: Spatio-Temporal Non-Autoregressive Trajectory Prediction Transformer [0.9786690381850356]
PRediction Transformer (PReTR) と呼ばれるモデルを導入し、時間分解型アテンションモジュールを用いてマルチエージェントシーンから特徴を抽出する。これは、経験的により良い結果を持つ以前の研究されたモデルよりも計算上の必要性が低いことを示している。我々は,学習対象クエリの集合を並列デコードするために,エンコーダ・デコーダ・トランスフォーマネットワークを利用する。
論文参考訳（メタデータ） (2022-03-17T12:52:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。