論文の概要: Rethinking Collaborative Perception from the Spatial-Temporal Importance
of Semantic Information
- arxiv url: http://arxiv.org/abs/2307.16517v1
- Date: Mon, 31 Jul 2023 09:33:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 15:10:33.993898
- Title: Rethinking Collaborative Perception from the Spatial-Temporal Importance
of Semantic Information
- Title(参考訳): 意味情報の空間的重要性から協調的知覚を再考する
- Authors: Yuntao Liu, Qian Huang, Rongpeng Li, Xianfu Chen, Zhifeng Zhao,
Shuyuan Zhao, Yongdong Zhu and Honggang Zhang
- Abstract要約: 本稿では,時間次元と空間次元の両方から意味情報(IoSI)の重要性を考慮した新しい協調認識フレームワークIoSI-CPを提案する。
具体的には、有利な共同作業者を効果的に識別するが、負の利益をもたらすものを除外するIoSIベースの共同作業者選択手法を開発する。
我々はまた,マルチスケールトランスフォーマーモジュールと短時間のアテンションモジュールを統合したHPHAと呼ばれる意味情報融合アルゴリズムを提案し,空間次元と時間次元からIoSIを捕捉する。
- 参考スコア(独自算出の注目度): 14.641888121360335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Collaboration by the sharing of semantic information is crucial to enable the
enhancement of perception capabilities. However, existing collaborative
perception methods tend to focus solely on the spatial features of semantic
information, while neglecting the importance of the temporal dimension in
collaborator selection and semantic information fusion, which instigates
performance degradation. In this article, we propose a novel collaborative
perception framework, IoSI-CP, which takes into account the importance of
semantic information (IoSI) from both temporal and spatial dimensions.
Specifically, we develop an IoSI-based collaborator selection method that
effectively identifies advantageous collaborators but excludes those that bring
negative benefits. Moreover, we present a semantic information fusion algorithm
called HPHA (historical prior hybrid attention), which integrates a multi-scale
transformer module and a short-term attention module to capture IoSI from
spatial and temporal dimensions, and assigns varying weights for efficient
aggregation. Extensive experiments on two open datasets demonstrate that our
proposed IoSI-CP significantly improves the perception performance compared to
state-of-the-art approaches. The code associated with this research is publicly
available at https://github.com/huangqzj/IoSI-CP/.
- Abstract(参考訳): セマンティクス情報の共有によるコラボレーションは,知覚能力の向上に不可欠である。
しかし、既存の協調認識手法は、協調者選択と意味情報融合における時間的次元の重要性を無視しながら、意味情報の空間的特徴にのみ焦点をあてる傾向がある。
本稿では,時間次元と空間次元の両方から意味情報(IoSI)の重要性を考慮した,新しい協調認識フレームワークIoSI-CPを提案する。
具体的には,有利なコラボレータを効果的に識別するが,負のメリットをもたらすものは排除するiosiベースのコラボレータ選択手法を開発した。
さらに,マルチスケールトランスフォーマーモジュールと短時間のアテンションモジュールを統合し,空間次元と時間次元からIoSIを捕捉し,様々な重みを割当てて効率的なアグリゲーションを行うHPHA (historical prior attention) と呼ばれる意味情報融合アルゴリズムを提案する。
2つのオープンデータセットに関する広範囲な実験により,提案するiosi-cpは,最先端のアプローチに比べて認識性能が著しく向上することを示した。
この研究に関連するコードはhttps://github.com/huangqzj/IoSI-CP/で公開されている。
関連論文リスト
- V2X-PC: Vehicle-to-everything Collaborative Perception via Point Cluster [58.79477191603844]
我々は,低レベル構造情報と高レベル意味情報を組み合わせて,シーンを疎結合に表現する新しいメッセージユニット,すなわちポイントクラスタを導入する。
このフレームワークには、オブジェクトの機能を維持し、帯域幅を管理するためのポイントクラスタパッキング(PCP)モジュールが含まれている。
2つの広く認識されている協調認識ベンチマークの実験は、従来の最先端の手法と比較して、我々の手法の優れた性能を示している。
論文 参考訳(メタデータ) (2024-03-25T11:24:02Z) - What Makes Good Collaborative Views? Contrastive Mutual Information Maximization for Multi-Agent Perception [52.41695608928129]
マルチエージェント認識(MAP)は、複数のソースからのデータを解釈することで、自律システムが複雑な環境を理解することを可能にする。
本稿では,MAPにおける協調的視点の「良い」特性を探求することに焦点を当てた中間的協調について検討する。
中間コラボレーションのための新しいフレームワークCMiMCを提案する。
論文 参考訳(メタデータ) (2024-03-15T07:18:55Z) - Spatio-Temporal Domain Awareness for Multi-Agent Collaborative
Perception [18.358998861454477]
車両間通信の潜在的な応用としてのマルチエージェント協調認識は、単一エージェント認識よりも自律走行車の性能知覚を著しく向上させる可能性がある。
本稿では,エージェント間の認識特性をエンドツーエンドに集約する新しい協調認識フレームワークSCOPEを提案する。
論文 参考訳(メタデータ) (2023-07-26T03:00:31Z) - Attention Based Feature Fusion For Multi-Agent Collaborative Perception [4.120288148198388]
グラフアテンションネットワーク(GAT)の形での中間的協調認識ソリューションを提案する。
提案手法は,複数の連結エージェント間で交換される中間表現を融合するアテンションベースのアグリゲーション戦略を開発する。
このアプローチは、チャネルレベルと空間レベルの中間特徴写像における重要な領域を適応的に強調することにより、オブジェクト検出精度が向上する。
論文 参考訳(メタデータ) (2023-05-03T12:06:11Z) - RLIP: Relational Language-Image Pre-training for Human-Object
Interaction Detection [32.20132357830726]
言語画像事前学習(Language- Image Pre-Training、LIPR)は、エンティティと関係記述の両方を活用するコントラスト事前学習の戦略である。
RLIP-ParSeと呼ばれるこれらのコントリビューションの利点は、ゼロショット、少数ショット、微調整のHOI検出の改善、およびノイズアノテーションからの堅牢性の向上である。
論文 参考訳(メタデータ) (2022-09-05T07:50:54Z) - Cross-modal Consensus Network for Weakly Supervised Temporal Action
Localization [74.34699679568818]
時間的行動局所化 (WS-TAL) は、ビデオレベルの分類的監督によって、ビデオ内のアクションインスタンスをローカライズすることを目的とした課題である。
この問題に対処するためのクロスモーダルコンセンサスネットワーク(CO2-Net)を提案する。
論文 参考訳(メタデータ) (2021-07-27T04:21:01Z) - Mining Implicit Entity Preference from User-Item Interaction Data for
Knowledge Graph Completion via Adversarial Learning [82.46332224556257]
本稿では,知識グラフ補完タスクにおけるユーザインタラクションデータを活用することで,新たな逆学習手法を提案する。
我々のジェネレータはユーザインタラクションデータから分離されており、識別器の性能を向上させるのに役立ちます。
利用者の暗黙の実体的嗜好を発見するために,グラフニューラルネットワークに基づく精巧な協調学習アルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-03-28T05:47:33Z) - Multi-Granularity Reference-Aided Attentive Feature Aggregation for
Video-based Person Re-identification [98.7585431239291]
ビデオベースの人物再識別は、同じ人物をビデオクリップ間でマッチングすることを目的としている。
本稿では,マルチグラニュラリティ参照属性集約モジュールMG-RAFAを提案する。
本フレームワークは,3つのベンチマークデータセット上での最先端のアブレーション性能を実現する。
論文 参考訳(メタデータ) (2020-03-27T03:49:21Z) - Bi-Directional Attention for Joint Instance and Semantic Segmentation in
Point Clouds [9.434847591440485]
バックボーンニューラルネットワーク上にバイディレクショナル・アテンション・モジュールを構築し、3Dポイント・クラウド・インセプションを実現する。
これは、あるタスクの特徴から測定された類似度行列を使用して、他のタスクの非ローカル情報を集約する。
S3DISデータセットとPartNetデータセットに関する総合実験とアブレーション研究から,本手法の優位性を検証した。
論文 参考訳(メタデータ) (2020-03-11T17:16:07Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。