論文の概要: INSTINCT: Instance-Level Interaction Architecture for Query-Based Collaborative Perception
- arxiv url: http://arxiv.org/abs/2509.23700v1
- Date: Sun, 28 Sep 2025 07:16:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.386479
- Title: INSTINCT: Instance-Level Interaction Architecture for Query-Based Collaborative Perception
- Title(参考訳): INSTINCT:クエリベースの協調認識のためのインスタンス・レベルインタラクションアーキテクチャ
- Authors: Yunjiang Xu, Lingzhi Li, Jin Wang, Yupeng Ouyang, Benyuan Yang,
- Abstract要約: 協調認識システムは、マルチエージェントの知覚データを統合し、精度と安全性を向上させることで、単一車両の制限を克服する。
これまでの研究は、クエリベースのインスタンスレベルのインタラクションが帯域幅の要求と手作業による事前処理を減らすことを証明してきたが、協調認識におけるLiDARによる実装は未開発のままである。
InSTINCTは,(1)高品質なインスタンス特徴選択のための品質認識型フィルタリング機構,2)協調関連インスタンスと協調関連インスタンスを分離するデュアルブランチ検出ルーティングスキーム,3)クロスエージェントローカルインスタンスフュージョンモジュール,の3つのコアコンポーネントを特徴とする新しい協調認識フレームワークを提案する。
- 参考スコア(独自算出の注目度): 6.018757656052237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Collaborative perception systems overcome single-vehicle limitations in long-range detection and occlusion scenarios by integrating multi-agent sensory data, improving accuracy and safety. However, frequent cooperative interactions and real-time requirements impose stringent bandwidth constraints. Previous works proves that query-based instance-level interaction reduces bandwidth demands and manual priors, however, LiDAR-focused implementations in collaborative perception remain underdeveloped, with performance still trailing state-of-the-art approaches. To bridge this gap, we propose INSTINCT (INSTance-level INteraCtion ArchiTecture), a novel collaborative perception framework featuring three core components: 1) a quality-aware filtering mechanism for high-quality instance feature selection; 2) a dual-branch detection routing scheme to decouple collaboration-irrelevant and collaboration-relevant instances; and 3) a Cross Agent Local Instance Fusion module to aggregate local hybrid instance features. Additionally, we enhance the ground truth (GT) sampling technique to facilitate training with diverse hybrid instance features. Extensive experiments across multiple datasets demonstrate that INSTINCT achieves superior performance. Specifically, our method achieves an improvement in accuracy 13.23%/33.08% in DAIR-V2X and V2V4Real while reducing the communication bandwidth to 1/281 and 1/264 compared to state-of-the-art methods. The code is available at https://github.com/CrazyShout/INSTINCT.
- Abstract(参考訳): 協調認識システムは、複数エージェントの知覚データを統合し、精度と安全性を向上させることで、長距離検出および閉塞シナリオにおける単一車両の制限を克服する。
しかし、頻繁な協調的相互作用とリアルタイム要求は、帯域幅の制約を強いる。
以前の研究は、クエリベースのインスタンスレベルのインタラクションが帯域幅の要求と手動の先行性を減少させることを示したが、LiDARにフォーカスした協調認識の実装はまだ未開発であり、パフォーマンスは依然として最先端のアプローチに追随している。
このギャップを埋めるために、我々は3つのコアコンポーネントを特徴とする新しい協調認識フレームワークINSTINCT(Instance-level INteraCtion ArchiTecture)を提案する。
1) 高品質なインスタンス特徴選択のための品質対応フィルタリング機構
2 共同関連及び共同関連インスタンスを分離する二重分岐検出ルーティング方式
3) ローカルハイブリッドインスタンス機能を集約するクロスエージェントローカルインスタンスフュージョンモジュール。
さらに,多様なハイブリッドインスタンス機能によるトレーニングを容易にするため,基底真理(GT)サンプリング技術を強化した。
複数のデータセットにわたる大規模な実験は、INSTINCTが優れたパフォーマンスを達成することを示す。
具体的には,DAIR-V2XとV2V4Realの精度は13.23%/33.08%向上し,通信帯域幅は最先端手法に比べて1/281,1/264に短縮された。
コードはhttps://github.com/CrazyShout/INSTINCTで公開されている。
関連論文リスト
- CoopTrack: Exploring End-to-End Learning for Efficient Cooperative Sequential Perception [13.32869419720427]
協調トラッキングのための完全なインスタンスレベルのエンドツーエンドフレームワークであるCoopTrackを提案する。
CoopTrackは学習可能なインスタンスアソシエーションを特徴としている。
V2X-SeqデータセットとGriffinデータセットの両方の実験は、CoopTrackが優れたパフォーマンスを実現していることを示している。
論文 参考訳(メタデータ) (2025-07-25T13:04:54Z) - Dynamic Cross-Modal Feature Interaction Network for Hyperspectral and LiDAR Data Classification [66.59320112015556]
ハイパースペクトル画像(HSI)とLiDARデータ共同分類は難しい課題である。
DCMNet(Dynamic Cross-Modal Feature Interaction Network)を提案する。
BSAB(Bilinear Spatial Attention Block)、BCAB(Bilinear Channel Attention Block)、ICB(Integration Convolutional Block)の3つの機能相互作用ブロックを導入している。
論文 参考訳(メタデータ) (2025-03-10T05:50:13Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Practical Collaborative Perception: A Framework for Asynchronous and
Multi-Agent 3D Object Detection [9.967263440745432]
咬合は、LiDARベースのオブジェクト検出方法において大きな課題である。
最先端のV2X手法は、中間協調手法を用いて性能帯域幅のトレードオフを解消する。
我々は,従来の方法よりも帯域幅と性能のトレードオフを向上する,シンプルで効果的な協調手法を考案した。
論文 参考訳(メタデータ) (2023-07-04T03:49:42Z) - HyRSM++: Hybrid Relation Guided Temporal Set Matching for Few-shot
Action Recognition [51.2715005161475]
そこで本研究では,数発のアクション認識のための時間的マッチング手法として,ハイブリッドリレーションド・テンポラル・セット・マッチングを提案する。
HyRSM++の中核となる考え方は、すべてのビデオをタスクに統合して差別的な表現を学ぶことである。
提案手法は,様々な撮影条件下での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-01-09T13:32:50Z) - Reference Twice: A Simple and Unified Baseline for Few-Shot Instance Segmentation [103.90033029330527]
FSIS(Few-Shot Instance)は、サポート例が限定された新しいクラスの検出とセグメンテーションを必要とする。
我々は、FSISのサポートとクエリ機能の関係を利用するための統合フレームワーク、Reference Twice(RefT)を導入する。
論文 参考訳(メタデータ) (2023-01-03T15:33:48Z) - Hybrid Relation Guided Set Matching for Few-shot Action Recognition [51.3308583226322]
本稿では,2つの鍵成分を組み込んだHybrid Relation Guided Set Matching (HyRSM) 手法を提案する。
ハイブリッドリレーションモジュールの目的は、エピソード内の関連関係とクロスビデオの完全活用により、タスク固有の埋め込みを学習することである。
我々は,HyRSMを6つの挑戦的ベンチマークで評価した。
論文 参考訳(メタデータ) (2022-04-28T11:43:41Z) - Asynchronous Interaction Aggregation for Action Detection [43.34864954534389]
本稿では,異なるインタラクションを活用して動作検出を促進する非同期インタラクション集約ネットワーク(AIA)を提案する。
ひとつはインタラクション集約構造(IA)で、複数のタイプのインタラクションをモデル化し統合するための一様パラダイムを採用し、もうひとつはパフォーマンス向上を実現するための非同期メモリ更新アルゴリズム(AMU)です。
論文 参考訳(メタデータ) (2020-04-16T07:03:20Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。