論文の概要: CoRA: A Collaborative Robust Architecture with Hybrid Fusion for Efficient Perception
- arxiv url: http://arxiv.org/abs/2512.13191v1
- Date: Mon, 15 Dec 2025 11:00:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.629989
- Title: CoRA: A Collaborative Robust Architecture with Hybrid Fusion for Efficient Perception
- Title(参考訳): CoRA: 効率的な知覚のためのハイブリッドフュージョンを用いた協調ロバストアーキテクチャ
- Authors: Gong Chen, Chaokun Zhang, Pengcheng Lv, Xiaohui Xie,
- Abstract要約: コミュニケーションの少ないロバスト性から性能を分離するハイブリッドアプローチによる新しい協調ロバストアーキテクチャを提案する。
極端なシナリオでは、CoRAはAP@0.7のベースライン性能を約19%改善し、通信容量は5倍以上になった。
- 参考スコア(独自算出の注目度): 10.264641065762723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Collaborative perception has garnered significant attention as a crucial technology to overcome the perceptual limitations of single-agent systems. Many state-of-the-art (SOTA) methods have achieved communication efficiency and high performance via intermediate fusion. However, they share a critical vulnerability: their performance degrades under adverse communication conditions due to the misalignment induced by data transmission, which severely hampers their practical deployment. To bridge this gap, we re-examine different fusion paradigms, and recover that the strengths of intermediate and late fusion are not a trade-off, but a complementary pairing. Based on this key insight, we propose CoRA, a novel collaborative robust architecture with a hybrid approach to decouple performance from robustness with low communication. It is composed of two components: a feature-level fusion branch and an object-level correction branch. Its first branch selects critical features and fuses them efficiently to ensure both performance and scalability. The second branch leverages semantic relevance to correct spatial displacements, guaranteeing resilience against pose errors. Experiments demonstrate the superiority of CoRA. Under extreme scenarios, CoRA improves upon its baseline performance by approximately 19% in AP@0.7 with more than 5x less communication volume, which makes it a promising solution for robust collaborative perception.
- Abstract(参考訳): 協調的知覚は、単一エージェントシステムの知覚的限界を克服する重要な技術として、大きな注目を集めている。
多くのSOTA(State-of-the-art)手法は中間核融合による通信効率と高性能化を実現している。
しかし、それらは重大な脆弱性を共有しており、その性能はデータ送信によって引き起こされる不整合のため、悪い通信条件下で低下し、実践的な展開を著しく妨げている。
このギャップを埋めるために、異なる核融合パラダイムを再検討し、中間核融合と後期核融合の強さはトレードオフではなく相補的なペアリングであることを回復する。
このキーとなる洞察に基づいて、我々は、低通信でロバスト性からパフォーマンスを分離するハイブリッドアプローチを備えた、新しいコラボレーティブロバストアーキテクチャであるCoRAを提案する。
特徴レベルの融合ブランチとオブジェクトレベルの補正ブランチの2つのコンポーネントで構成されている。
その最初のブランチは重要な機能を選択し、パフォーマンスとスケーラビリティの両方を確実にするためにそれらを効率的に融合する。
第2分枝は意味的関連性を利用して空間変位を補正し、ポーズエラーに対するレジリエンスを保証する。
実験はCoRAの優位性を示す。
極端なシナリオでは、CoRAはAP@0.7のベースライン性能を約19%改善し、通信量を5倍以上に削減した。
関連論文リスト
- Adapting Multimodal Foundation Models for Few-Shot Learning: A Comprehensive Study on Contrastive Captioners [1.2461503242570642]
本稿では,コントラシティブ・キャピタ(CoCa)視覚バックボーンを用いた画像分類手法を提案する。
強いデータ拡張は、低ショット環境での線形探索の性能を低下させるが、LoRA微調整の安定化には不可欠である。
また,Supervised Contrastive (SupCon) の損失を組み込んだハイブリッド目的が,標準的なクロスエントロピーよりも一貫した性能向上をもたらすことを示す。
論文 参考訳(メタデータ) (2025-12-14T20:13:21Z) - HeatV2X: Scalable Heterogeneous Collaborative Perception via Efficient Alignment and Interaction [7.171380055232685]
V2X(Van-to-Everything)コラボレーティブ・インセプションは、トランスミッションを通じて、単一車両の限界を超えて知覚を拡大する。
既存のフレームワークは、(1)参加エージェントは本質的にマルチモーダルで異種であり、(2)新しいエージェントに対応するためには、協調フレームワークはスケーラブルでなければならない。
スケーラブルな協調フレームワークであるHeatV2Xを提案する。
論文 参考訳(メタデータ) (2025-11-13T11:33:22Z) - DeepThinkVLA: Enhancing Reasoning Capability of Vision-Language-Action Models [51.76664843721462]
DeepThinkVLAはVision-Language-Actionモデルのための新しいアーキテクチャである。
因果的注意を伴うシーケンシャルCoTを生成し、双方向の注意に切り替え、アクションベクトルを高速に復号する。
LIBEROベンチマークで97.0%の成功率を達成した。
論文 参考訳(メタデータ) (2025-10-31T05:26:16Z) - Cross-modal Active Complementary Learning with Self-refining
Correspondence [54.61307946222386]
既存手法のロバスト性を改善するために,クロスモーダルなロバスト補完学習フレームワーク(CRCL)を提案する。
ACLは、誤った監視を行うリスクを減らすために、アクティブで補完的な学習損失を利用する。
SCCは、モーメント補正を備えた複数の自己精製プロセスを使用して、対応を補正するために受容場を拡大する。
論文 参考訳(メタデータ) (2023-10-26T15:15:11Z) - PAIF: Perception-Aware Infrared-Visible Image Fusion for Attack-Tolerant
Semantic Segmentation [50.556961575275345]
対向シーンにおけるセグメンテーションの堅牢性を促進するための認識認識型融合フレームワークを提案する。
我々は,先進の競争相手に比べて15.3% mIOUの利得で,ロバスト性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-08-08T01:55:44Z) - Practical Collaborative Perception: A Framework for Asynchronous and
Multi-Agent 3D Object Detection [9.967263440745432]
咬合は、LiDARベースのオブジェクト検出方法において大きな課題である。
最先端のV2X手法は、中間協調手法を用いて性能帯域幅のトレードオフを解消する。
我々は,従来の方法よりも帯域幅と性能のトレードオフを向上する,シンプルで効果的な協調手法を考案した。
論文 参考訳(メタデータ) (2023-07-04T03:49:42Z) - WiCo: Win-win Cooperation of Bottom-up and Top-down Referring Image
Segmentation [37.53063869243558]
We build Win-win Cooperation (WiCo) to exploit complementary nature of two types of method on both interaction and integration aspects。
当社のWiCoでは、いくつかの顕著なトップダウンとボトムアップの組み合わせが、3つの一般的なデータセットに対して、合理的な追加コストで大幅な改善を実現しています。
論文 参考訳(メタデータ) (2023-06-19T07:49:29Z) - Searching a Compact Architecture for Robust Multi-Exposure Image Fusion [55.37210629454589]
2つの大きなスタブリングブロックは、画素の不一致や非効率な推論など、開発を妨げる。
本研究では,高機能なマルチ露光画像融合のための自己アライメントとディテールリプレクションモジュールを取り入れたアーキテクチャ検索に基づくパラダイムを提案する。
提案手法は様々な競争方式より優れており、一般的なシナリオではPSNRが3.19%向上し、不整合シナリオでは23.5%向上した。
論文 参考訳(メタデータ) (2023-05-20T17:01:52Z) - ECO-TR: Efficient Correspondences Finding Via Coarse-to-Fine Refinement [80.94378602238432]
粗大な処理で対応性を見出すことにより、ECO-TR(Correspondence Efficient Transformer)と呼ばれる効率的な構造を提案する。
これを実現するために、複数の変圧器ブロックは段階的に連結され、予測された座標を徐々に洗練する。
種々のスパースタスクと密マッチングタスクの実験は、既存の最先端技術に対する効率性と有効性の両方において、我々の手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-09-25T13:05:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。