Fugu-MT 論文翻訳(概要): EMIFF: Enhanced Multi-scale Image Feature Fusion for Vehicle-Infrastructure Cooperative 3D Object Detection

論文の概要: EMIFF: Enhanced Multi-scale Image Feature Fusion for Vehicle-Infrastructure Cooperative 3D Object Detection

arxiv url: http://arxiv.org/abs/2402.15272v1
Date: Fri, 23 Feb 2024 11:35:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-26 14:53:51.144256
Title: EMIFF: Enhanced Multi-scale Image Feature Fusion for Vehicle-Infrastructure Cooperative 3D Object Detection
Title（参考訳）: emiff: 車・インフラ協調3次元物体検出のためのマルチスケール画像特徴融合
Authors: Zhe Wang, Siqi Fan, Xiaoliang Huo, Tongda Xu, Yan Wang, Jingjing Liu, Yilun Chen, Ya-Qin Zhang
Abstract要約: 車両・インフラ協力型3D(VIC3D)物体検出における2つの大きな課題が続いている。 VIC3Dタスクのための新しいカメラベースの3D検出フレームワーク、EMIFF(Multiscale Image Feature Fusion)を提案する。実験により、EMIFFはDAIR-V2X-Cデータセット上でSOTAを達成し、従来のアーリーフュージョン法とレイトフュージョン法を同等の伝送コストで大幅に上回った。
参考スコア（独自算出の注目度）: 23.32916754209488
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In autonomous driving, cooperative perception makes use of multi-view cameras from both vehicles and infrastructure, providing a global vantage point with rich semantic context of road conditions beyond a single vehicle viewpoint. Currently, two major challenges persist in vehicle-infrastructure cooperative 3D (VIC3D) object detection: $1)$ inherent pose errors when fusing multi-view images, caused by time asynchrony across cameras; $2)$ information loss in transmission process resulted from limited communication bandwidth. To address these issues, we propose a novel camera-based 3D detection framework for VIC3D task, Enhanced Multi-scale Image Feature Fusion (EMIFF). To fully exploit holistic perspectives from both vehicles and infrastructure, we propose Multi-scale Cross Attention (MCA) and Camera-aware Channel Masking (CCM) modules to enhance infrastructure and vehicle features at scale, spatial, and channel levels to correct the pose error introduced by camera asynchrony. We also introduce a Feature Compression (FC) module with channel and spatial compression blocks for transmission efficiency. Experiments show that EMIFF achieves SOTA on DAIR-V2X-C datasets, significantly outperforming previous early-fusion and late-fusion methods with comparable transmission costs.
Abstract（参考訳）: 自動運転において、協調認識は、車両とインフラの両方からのマルチビューカメラを使用し、単一の車両の視点を超えて、道路条件の豊かなセマンティックコンテキストを持つグローバルバンテージポイントを提供する。現在、車両とインフラの協調3D(VIC3D)オブジェクト検出において、2つの大きな課題が続いている。そこで本稿では,vic3dタスクのためのカメラベース3d検出フレームワークであるenhanced multi-scale image feature fusion (emiff)を提案する。車両とインフラの両面から総合的な視点をフル活用するために,カメラ同期によるポーズエラーを補正するために,大規模クロスアテンション (MCA) とカメラ対応チャネルマスキング (CCM) モジュールを提案する。また、伝送効率を高めるために、チャネルと空間圧縮ブロックを備えた特徴圧縮(FC)モジュールも導入する。実験により、EMIFFはDAIR-V2X-Cデータセット上でSOTAを達成し、従来のアーリーフュージョン法とレイトフュージョン法を同等の伝送コストで大幅に上回った。

関連論文リスト

DualDiff: Dual-branch Diffusion Model for Autonomous Driving with Semantic Fusion [9.225796678303487]
マルチビュー駆動シーン生成のための2分岐条件拡散モデルであるDualDiffを提案する。 Occupancy Ray Sampling (ORS) という意味豊かな3次元表現を数値駆動シーン表現とともに導入する。モーダル間の情報統合を改善するために,モーダル間の特徴の整合・融合を行うセマンティック・フュージョン・アテンション(SFA)機構を提案する。
論文参考訳（メタデータ） (2025-05-03T16:20:01Z)
Towards Intelligent Transportation with Pedestrians and Vehicles In-the-Loop: A Surveillance Video-Assisted Federated Digital Twin Framework [62.47416496137193]
本稿では,歩行者や車いすによるITSを支援するための監視ビデオ支援型デジタルツイン(SV-FDT)フレームワークを提案する。 i)複数のソースからトラフィック監視ビデオを収集するエンドレイヤ、(ii)セマンティックセグメンテーションに基づく視覚理解、ツインエージェントベースのインタラクションモデリング、およびローカルデジタルツインシステム(LDTS)をローカルで作成するエッジレイヤ、(iii)異なるリージョンにわたるLDTSを統合してグローバルDTモデルをリアルタイムで構築するクラウドレイヤの3層で構成されている。
論文参考訳（メタデータ） (2025-03-06T07:36:06Z)
TrafficLoc: Localizing Traffic Surveillance Cameras in 3D Scenes [49.43995864524434]
本稿では,画像間クラウド登録(I2P)手法であるTrafficLocを提案する。大規模な現実世界の交差点データセットの欠如を克服するため、カルラの75の都市と農村の交差点を持つ新しいシミュレーションデータセットであるCarla Intersectionを紹介した。我々のTrafficLocは、Carla Intersection上でSOTA I2P法(最大86%)よりも大幅に性能を向上し、実世界のデータに対してよく一般化する。
論文参考訳（メタデータ） (2024-12-13T17:42:53Z)
CRT-Fusion: Camera, Radar, Temporal Fusion Using Motion Information for 3D Object Detection [9.509625131289429]
本稿では,レーダカメラ融合に時間情報を統合する新しいフレームワークであるCRT-Fusionを紹介する。 CRT-Fusionはレーダーカメラによる3Dオブジェクト検出のための最先端性能を実現する。
論文参考訳（メタデータ） (2024-11-05T11:25:19Z)
RCBEVDet++: Toward High-accuracy Radar-Camera Fusion 3D Perception Network [34.45694077040797]
本稿では、BEEVDetと呼ばれるレーダーカメラ融合3Dオブジェクト検出フレームワークを提案する。 RadarBEVNetは、スパースレーダーポイントを高密度の鳥の目視特徴に符号化する。提案手法は,3次元オブジェクト検出,BEVセマンティックセグメンテーション,および3次元マルチオブジェクト追跡タスクにおいて,最先端のレーダカメラ融合を実現する。
論文参考訳（メタデータ） (2024-09-08T05:14:27Z)
Application of 2D Homography for High Resolution Traffic Data Collection using CCTV Cameras [9.946460710450319]
本研究では,CCTVカメラから高精細なトラフィックデータを抽出するための3段階のビデオ分析フレームワークを実装した。このフレームワークの主要な構成要素は、オブジェクト認識、視点変換、車両軌道再構成である。その結果, カメラ推定値間の速度偏差は10%以下で, 方向トラフィック数では+/-4.5%の誤差率を示した。
論文参考訳（メタデータ） (2024-01-14T07:33:14Z)
Mutual Information-driven Triple Interaction Network for Efficient Image Dehazing [54.168567276280505]
画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
論文参考訳（メタデータ） (2023-08-14T08:23:58Z)
Multi-Modal 3D Object Detection by Box Matching [109.43430123791684]
マルチモーダル3次元検出のためのボックスマッチング(FBMNet)による新しいフュージョンネットワークを提案する。 3Dオブジェクトと2Dオブジェクトの提案を学習することで、ROI特徴を組み合わせることで、検出のための融合を効果的に行うことができる。
論文参考訳（メタデータ） (2023-05-12T18:08:51Z)
VIMI: Vehicle-Infrastructure Multi-view Intermediate Fusion for Camera-based 3D Object Detection [17.22491199725569]
VIC3Dは、車両と交通インフラの両方から多視点カメラを利用する。我々は、新しい3Dオブジェクト検出フレームワーク、Vines-Infrastructure Multi-view Intermediate fusion (VIMI)を提案する。 VIMIは15.61%のAP_3Dと21.44%のAP_BEVを新しいVIC3DデータセットであるDAIR-V2X-Cで達成している。
論文参考訳（メタデータ） (2023-03-20T09:56:17Z)
BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation [105.96557764248846]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。 3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文参考訳（メタデータ） (2022-05-26T17:59:35Z)
DAIR-V2X: A Large-Scale Dataset for Vehicle-Infrastructure Cooperative 3D Object Detection [8.681912341444901]
DAIR-V2Xは、自動車・インフラ協調自律運転の現実シナリオから得られた、最初の大規模でマルチモードのマルチビューデータセットである。 DAIR-V2Xは71254のLiDARフレームと71254のカメラフレームで構成される。
論文参考訳（メタデータ） (2022-04-12T07:13:33Z)
EPNet++: Cascade Bi-directional Fusion for Multi-Modal 3D Object Detection [56.03081616213012]
本稿では,新しいCasscade Bi-directional Fusion(CB-Fusion)モジュールを導入することで,マルチモーダル3Dオブジェクト検出のためのEPNet++を提案する。提案したCB-Fusionモジュールは、カスケード双方向相互作用融合方式で画像特徴と点特徴の豊富な意味情報を高める。 KITTI、JRDB、SUN-RGBDデータセットの実験結果は、最先端の手法よりもEPNet++の方が優れていることを示している。
論文参考訳（メタデータ） (2021-12-21T10:48:34Z)
Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文参考訳（メタデータ） (2021-08-06T14:50:50Z)
EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文参考訳（メタデータ） (2021-06-21T10:47:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。