論文の概要: RayFusion: Ray Fusion Enhanced Collaborative Visual Perception
- arxiv url: http://arxiv.org/abs/2510.08017v1
- Date: Thu, 09 Oct 2025 09:54:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.997664
- Title: RayFusion: Ray Fusion Enhanced Collaborative Visual Perception
- Title(参考訳): レイフュージョン:レイフュージョンによる協調的視覚知覚の強化
- Authors: Shaohong Wang, Bin Lu, Xinyu Xiao, Hanzhi Zhong, Bowen Pang, Tong Wang, Zhiyu Xiang, Hangguan Shan, Eryun Liu,
- Abstract要約: 我々は、協調的な視覚知覚のためのレイベース融合法であるレイフュージョンを提案する。
RayFusionは、カメラ線に沿った冗長性と偽陽性の予測を減らす。
我々の手法は、既存の最先端モデルよりも一貫して優れています。
- 参考スコア(独自算出の注目度): 24.87627098781283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Collaborative visual perception methods have gained widespread attention in the autonomous driving community in recent years due to their ability to address sensor limitation problems. However, the absence of explicit depth information often makes it difficult for camera-based perception systems, e.g., 3D object detection, to generate accurate predictions. To alleviate the ambiguity in depth estimation, we propose RayFusion, a ray-based fusion method for collaborative visual perception. Using ray occupancy information from collaborators, RayFusion reduces redundancy and false positive predictions along camera rays, enhancing the detection performance of purely camera-based collaborative perception systems. Comprehensive experiments show that our method consistently outperforms existing state-of-the-art models, substantially advancing the performance of collaborative visual perception. The code is available at https://github.com/wangsh0111/RayFusion.
- Abstract(参考訳): 近年,センサ制限問題に対処する能力により,協調的視覚認識手法が自律運転コミュニティにおいて注目されている。
しかし、露骨な深度情報がないため、例えば3Dオブジェクト検出のようなカメラベースの認識システムでは正確な予測を生成するのが難しくなることが多い。
深度推定におけるあいまいさを軽減するために,レイフュージョン(RayFusion)を提案する。
共同作業者からの光占有情報を用いて、RayFusionは、カメラ線に沿った冗長性と偽陽性予測を低減し、純粋にカメラベースの協調認識システムの検出性能を向上させる。
包括的実験により、我々の手法は既存の最先端モデルより一貫して優れており、協調的な視覚知覚の性能を大幅に向上させることが示された。
コードはhttps://github.com/wangsh0111/RayFusion.comで公開されている。
関連論文リスト
- CRAB: Camera-Radar Fusion for Reducing Depth Ambiguity in Backward Projection based View Transformation [19.748485957698907]
カメラレーダ融合に基づく3次元物体検出・分割モデルCRABを提案する。
CRABはビュービューイメージコンテキスト機能をBEVクエリに集約する。
画像からの密度は高いが信頼性の低い深度分布と、レーダーの占有度の少ない正確な深度情報を組み合わせることで、同じ線に沿ったクエリ間の深度差を改善する。
論文 参考訳(メタデータ) (2025-09-06T17:39:30Z) - Conceptualizing Multi-scale Wavelet Attention and Ray-based Encoding for Human-Object Interaction Detection [15.125734989910429]
本稿では,HOI検出に適したウェーブレットアテンションのようなバックボーンとレイベースのエンコーダアーキテクチャを提案する。
我々のウェーブレットバックボーンは、畳み込みフィルタから抽出した低次および高次相互作用から識別的特徴を集約することにより、中間階相互作用を表現する限界に対処する。
我々のデコーダは、クエリの埋め込みを、正確な予測のために強調された関心領域と整合させる。
論文 参考訳(メタデータ) (2025-07-15T04:44:54Z) - Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。
本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。
本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文 参考訳(メタデータ) (2024-11-28T13:04:45Z) - HEAD: A Bandwidth-Efficient Cooperative Perception Approach for Heterogeneous Connected and Autonomous Vehicles [9.10239345027499]
HEADは3次元物体検出ネットワークにおける分類と回帰ヘッドの特徴を融合する手法である。
実験の結果,HEADは通信帯域幅と知覚性能を効果的にバランスさせる融合法であることがわかった。
論文 参考訳(メタデータ) (2024-08-27T22:05:44Z) - Cross-Domain Spatial Matching for Camera and Radar Sensor Data Fusion in Autonomous Vehicle Perception System [0.0]
本稿では,自律走行車認識システムにおける3次元物体検出のためのカメラとレーダーセンサの融合問題に対する新しいアプローチを提案する。
我々のアプローチは、ディープラーニングの最近の進歩に基づいており、両方のセンサーの強度を活用して物体検出性能を向上させる。
提案手法は単一センサ・ソリューションよりも優れた性能を実現し,他のトップレベルの融合手法と直接競合できることを示す。
論文 参考訳(メタデータ) (2024-04-25T12:04:31Z) - Beyond Night Visibility: Adaptive Multi-Scale Fusion of Infrared and
Visible Images [49.75771095302775]
赤外線および可視画像を用いた適応型マルチスケール核融合ネットワーク(AMFusion)を提案する。
まず、赤外画像と可視画像から空間的特徴と意味的特徴を分離し、前者が光分布の調整に使用される。
第2に,事前学習したバックボーンから抽出した検出機能を利用して,意味的特徴の融合を誘導する。
第3に、通常の光強度で融合画像を制約する新しい照明損失を提案する。
論文 参考訳(メタデータ) (2024-03-02T03:52:07Z) - Echoes Beyond Points: Unleashing the Power of Raw Radar Data in
Multi-modality Fusion [74.84019379368807]
本稿では,既存のレーダ信号処理パイプラインをスキップするEchoFusionという新しい手法を提案する。
具体的には、まずBird's Eye View (BEV)クエリを生成し、次にレーダーから他のセンサーとフューズに対応するスペクトル特徴を取ります。
論文 参考訳(メタデータ) (2023-07-31T09:53:50Z) - ROFusion: Efficient Object Detection using Hybrid Point-wise
Radar-Optical Fusion [14.419658061805507]
本稿では,自律走行シナリオにおける物体検出のためのハイブリッドなポイントワイドレーダ・オプティカル融合手法を提案する。
このフレームワークは、マルチモーダルな特徴表現を学習するために統合されたレンジドップラースペクトルと画像の両方からの密集したコンテキスト情報から恩恵を受ける。
論文 参考訳(メタデータ) (2023-07-17T04:25:46Z) - Target-aware Dual Adversarial Learning and a Multi-scenario
Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection [65.30079184700755]
本研究は、物体検出のために異なるように見える赤外線と可視画像の融合の問題に対処する。
従来のアプローチでは、2つのモダリティの根底にある共通点を発見し、反復最適化またはディープネットワークによって共通空間に融合する。
本稿では、融合と検出の連立問題に対する二段階最適化の定式化を提案し、その後、核融合と一般的に使用される検出ネットワークのためのターゲット認識デュアル逆学習(TarDAL)ネットワークに展開する。
論文 参考訳(メタデータ) (2022-03-30T11:44:56Z) - Depth Estimation from Monocular Images and Sparse Radar Data [93.70524512061318]
本稿では,ディープニューラルネットワークを用いた単眼画像とレーダ点の融合により,より正確な深度推定を実現する可能性を検討する。
レーダ測定で発生するノイズが,既存の融合法の適用を妨げている主要な理由の1つであることが判明した。
実験はnuScenesデータセット上で行われ、カメラ、レーダー、LiDARの記録を様々な場面と気象条件で記録する最初のデータセットの1つである。
論文 参考訳(メタデータ) (2020-09-30T19:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。