論文の概要: Butter: Frequency Consistency and Hierarchical Fusion for Autonomous Driving Object Detection
- arxiv url: http://arxiv.org/abs/2507.13373v2
- Date: Thu, 31 Jul 2025 10:00:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 15:10:45.247021
- Title: Butter: Frequency Consistency and Hierarchical Fusion for Autonomous Driving Object Detection
- Title(参考訳): バター:自律走行物体検出のための周波数一貫性と階層融合
- Authors: Xiaojian Lin, Wenxin Zhang, Yuchu Jiang, Wangyu Wu, Yiran Guo, Kangxu Wang, Zongzheng Zhang, Guijin Wang, Lei Jin, Hao Zhao,
- Abstract要約: 階層的特徴表現はコンピュータビジョン、特に自律運転の物体検出において重要な役割を果たす。
YOLOやDETRといった既存のアーキテクチャは、さまざまなスケールで機能の一貫性を維持するのに苦労している。
検出堅牢性を改善するために階層的特徴表現を強化するために設計された,新しいオブジェクト検出フレームワークであるButterを提案する。
- 参考スコア(独自算出の注目度): 8.358814839784332
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hierarchical feature representations play a pivotal role in computer vision, particularly in object detection for autonomous driving. Multi-level semantic understanding is crucial for accurately identifying pedestrians, vehicles, and traffic signs in dynamic environments. However, existing architectures, such as YOLO and DETR, struggle to maintain feature consistency across different scales while balancing detection precision and computational efficiency. To address these challenges, we propose Butter, a novel object detection framework designed to enhance hierarchical feature representations for improving detection robustness. Specifically, Butter introduces two key innovations: Frequency-Adaptive Feature Consistency Enhancement (FAFCE) Component, which refines multi-scale feature consistency by leveraging adaptive frequency filtering to enhance structural and boundary precision, and Progressive Hierarchical Feature Fusion Network (PHFFNet) Module, which progressively integrates multi-level features to mitigate semantic gaps and strengthen hierarchical feature learning. Through extensive experiments on BDD100K, KITTI, and Cityscapes, Butter demonstrates superior feature representation capabilities, leading to notable improvements in detection accuracy while reducing model complexity. By focusing on hierarchical feature refinement and integration, Butter provides an advanced approach to object detection that achieves a balance between accuracy, deployability, and computational efficiency in real-time autonomous driving scenarios. Our model and implementation are publicly available at https://github.com/Aveiro-Lin/Butter, facilitating further research and validation within the autonomous driving community.
- Abstract(参考訳): 階層的特徴表現はコンピュータビジョン、特に自律運転における物体検出において重要な役割を果たす。
動的環境における歩行者、車両、交通標識を正確に識別するには、多段階の意味理解が不可欠である。
しかし、YOLOやDETRのような既存のアーキテクチャは、検出精度と計算効率のバランスを保ちながら、さまざまなスケールで機能の一貫性を維持するのに苦労している。
これらの課題に対処するため、我々は、階層的特徴表現を強化し、ロバスト性を向上させるために設計された新しいオブジェクト検出フレームワークであるButterを提案する。
具体的には、周波数適応的特徴整合性強化(FAFCE)コンポーネント、適応周波数フィルタリングを活用して構造的および境界的精度を向上させることによるマルチスケール特徴整合性向上、セマンティックギャップを緩和し階層的特徴学習を強化するために段階的に多レベル特徴を統合するプログレッシブ階層的特徴統合ネットワーク(PHFFNet)モジュールである。
BDD100K、KITTI、Cityscapesに関する広範な実験を通じて、Butter氏は優れた機能表現能力を示し、モデルの複雑さを低減しつつ、検出精度を顕著に改善した。
階層的な機能改善と統合に焦点を当てることで、Butterは、リアルタイム自律運転シナリオにおける正確性、デプロイ可能性、計算効率のバランスを達成する、オブジェクト検出への高度なアプローチを提供する。
私たちのモデルと実装はhttps://github.com/Aveiro-Lin/Butterで公開されています。
関連論文リスト
- SOLVE: Synergy of Language-Vision and End-to-End Networks for Autonomous Driving [51.47621083057114]
SOLVEは、ビジョンランゲージモデルとエンド・ツー・エンド(E2E)モデルを相乗化して自動運転車の計画を強化する革新的なフレームワークである。
提案手法は,VLMとE2Eコンポーネント間の包括的インタラクションを実現するために,共有ビジュアルエンコーダによる機能レベルでの知識共有を重視している。
論文 参考訳(メタデータ) (2025-05-22T15:44:30Z) - Spatial-Temporal Perception with Causal Inference for Naturalistic Driving Action Recognition [6.115044825582411]
自動車キャビン監視システムには, 自然な運転行動認識が不可欠である。
これまでのアプローチでは、微妙な振る舞いの違いを観察する能力が限られていたため、実践的な実装に苦労してきた。
本稿では,時間的情報と空間的関係を両立する空間的知覚アーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-03-06T04:28:11Z) - InVDriver: Intra-Instance Aware Vectorized Query-Based Autonomous Driving Transformer [12.441180142943328]
InVDriverは、インスタンス内空間依存のための新しいベクトル化クエリベースのシステムである。
InVDriverは最先端の性能を達成し,精度と安全性の両面で従来の手法より優れていることを示す。
論文 参考訳(メタデータ) (2025-02-25T08:20:16Z) - XAI-based Feature Ensemble for Enhanced Anomaly Detection in Autonomous Driving Systems [1.3022753212679383]
本稿では,複数の Explainable AI (XAI) メソッドを統合する新しい機能アンサンブルフレームワークを提案する。
このフレームワークは、6つの多様なAIモデルにまたがって、これらのXAIメソッドによって識別されるトップ機能を融合することによって、異常の検出に不可欠な堅牢で包括的な機能のセットを生成する。
我々の技術は、AIモデルの精度、堅牢性、透明性の向上を示し、より安全で信頼性の高い自動運転システムに貢献します。
論文 参考訳(メタデータ) (2024-10-20T14:34:48Z) - GSSF: Generalized Structural Sparse Function for Deep Cross-modal Metric Learning [51.677086019209554]
ペアワイド類似性学習のためのモダリティ間の強力な関係を捕捉する汎用構造スパースを提案する。
距離メートル法は、対角線とブロック対角線の2つの形式を微妙にカプセル化する。
クロスモーダルと2つの余分なユニモーダル検索タスクの実験は、その優位性と柔軟性を検証した。
論文 参考訳(メタデータ) (2024-10-20T03:45:50Z) - DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - RADA: Robust and Accurate Feature Learning with Domain Adaptation [7.905594146253435]
本稿では、2つの重要な要素を組み込んだ多層機能集約ネットワークを導入し、堅牢で正確な特徴の学習を容易にする。
提案手法は,画像マッチング,カメラポーズ推定,視覚的ローカライゼーションタスクにおいて優れた結果が得られる。
論文 参考訳(メタデータ) (2024-07-22T16:49:58Z) - DuEqNet: Dual-Equivariance Network in Outdoor 3D Object Detection for
Autonomous Driving [4.489333751818157]
まず3次元物体検出ネットワークに等分散の概念を導入するDuEqNetを提案する。
我々のモデルの双対同変は、局所的および大域的両方の同変的特徴を抽出することができる。
本モデルでは, 配向精度が向上し, 予測効率が向上する。
論文 参考訳(メタデータ) (2023-02-27T08:30:02Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。