論文の概要: What Makes Good Collaborative Views? Contrastive Mutual Information Maximization for Multi-Agent Perception
- arxiv url: http://arxiv.org/abs/2403.10068v1
- Date: Fri, 15 Mar 2024 07:18:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-03-18 18:19:27.860591
- Title: What Makes Good Collaborative Views? Contrastive Mutual Information Maximization for Multi-Agent Perception
- Title(参考訳): 良質な協調的視点は何か : マルチエージェント知覚のための対比的相互情報の最大化
- Authors: Wanfang Su, Lixing Chen, Yang Bai, Xi Lin, Gaolei Li, Zhe Qu, Pan Zhou,
- Abstract要約: マルチエージェント認識(MAP)は、複数のソースからのデータを解釈することで、自律システムが複雑な環境を理解することを可能にする。
本稿では,MAPにおける協調的視点の「良い」特性を探求することに焦点を当てた中間的協調について検討する。
中間コラボレーションのための新しいフレームワークCMiMCを提案する。
- 参考スコア(独自算出の注目度): 52.41695608928129
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent perception (MAP) allows autonomous systems to understand complex environments by interpreting data from multiple sources. This paper investigates intermediate collaboration for MAP with a specific focus on exploring "good" properties of collaborative view (i.e., post-collaboration feature) and its underlying relationship to individual views (i.e., pre-collaboration features), which were treated as an opaque procedure by most existing works. We propose a novel framework named CMiMC (Contrastive Mutual Information Maximization for Collaborative Perception) for intermediate collaboration. The core philosophy of CMiMC is to preserve discriminative information of individual views in the collaborative view by maximizing mutual information between pre- and post-collaboration features while enhancing the efficacy of collaborative views by minimizing the loss function of downstream tasks. In particular, we define multi-view mutual information (MVMI) for intermediate collaboration that evaluates correlations between collaborative views and individual views on both global and local scales. We establish CMiMNet based on multi-view contrastive learning to realize estimation and maximization of MVMI, which assists the training of a collaboration encoder for voxel-level feature fusion. We evaluate CMiMC on V2X-Sim 1.0, and it improves the SOTA average precision by 3.08% and 4.44% at 0.5 and 0.7 IoU (Intersection-over-Union) thresholds, respectively. In addition, CMiMC can reduce communication volume to 1/32 while achieving performance comparable to SOTA. Code and Appendix are released at https://github.com/77SWF/CMiMC.
- Abstract(参考訳): マルチエージェント認識(MAP)は、複数のソースからのデータを解釈することで、自律システムが複雑な環境を理解することを可能にする。
本稿では,共同作業におけるMAPの「良い」特性(協調作業後の特徴)と,それに基づく個別の視点(協調作業前特徴)を探索することに焦点を当てた中間的共同作業について検討し,既存の作業において不透明な手続きとして扱われた。
CMiMC (Contrastive Mutual Information Maximization for Collaborative Perception) という新たなフレームワークを提案する。
CMiMCの中核となる理念は、下流タスクの損失関数を最小化して協調ビューの有効性を高めつつ、協調ビューの事前と後の共同作業の特徴間の相互情報を最大化することで、協調ビューにおける個人ビューの差別的情報を保存することである。
特に,多視点相互情報(MVMI)を定義し,協調的な視点とグローバルスケールとローカルスケールの個人ビューの相関性を評価する。
我々は,Voxelレベルの特徴融合のための協調エンコーダのトレーニングを支援するMVMIの推定と最大化を実現するために,マルチビューコントラスト学習に基づくCMiMNetを確立する。
We evaluate CMiMC on V2X-Sim 1.0, it is improves the SOTA averagecision by 3.08% and 4.44% at 0.5 and 0.7 IoU (Intersection-over-Union) thresholds。
さらに、CMiMCはSOTAに匹敵する性能を保ちながら通信量を1/32に削減できる。
CodeとAppendixはhttps://github.com/77SWF/CMiMCで公開されている。
関連論文リスト
- MAPL: Model Agnostic Peer-to-peer Learning [2.9221371172659616]
我々は、異種パーソナライズされたモデルと協調グラフを同時に学習するために、MAPL(Model Agnostic Peer-to-peer Learning)を導入する。
MAPLは、(i)ローカルレベルのパーソナライズドモデルラーニング(PML)と、(ii)ネットワーク全体の分散協調グラフラーニング(CGL)という2つの主要なモジュールから構成され、局所的なタスク類似性に基づいて協調重みを動的に洗練する。
論文 参考訳(メタデータ) (2024-03-28T19:17:54Z) - DCP-Net: A Distributed Collaborative Perception Network for Remote
Sensing Semantic Segmentation [12.745202593789152]
本稿では,分散協調認識ネットワークであるDCP-Netを革新的に紹介する。
DCP-Netは、メンバーが他のプラットフォームの機能を統合することで知覚性能を向上させるのに役立つ。
その結果、DCP-Netは既存の手法を網羅的に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-09-05T13:36:40Z) - M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot
Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。
textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。
説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文 参考訳(メタデータ) (2023-08-06T09:15:14Z) - Multi-interactive Feature Learning and a Full-time Multi-modality
Benchmark for Image Fusion and Segmentation [66.15246197473897]
多モード画像融合とセグメンテーションは、自律走行とロボット操作において重要な役割を果たす。
画像融合とtextbfSegmentation のための textbfMulti-textbfinteractive textbfFeature Learning アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-04T01:03:58Z) - Select2Col: Leveraging Spatial-Temporal Importance of Semantic
Information for Efficient Collaborative Perception [21.043094544649733]
共有意味情報の活用による協調的認識は、孤立したエージェントの個々人の限界を克服する上で重要な役割を担っている。
既存の協調認識手法は、時間次元の重要性を無視しながら、意味情報の空間的特徴にのみ焦点をあてる傾向がある。
Select2Colは,セマンティアンダーラインの情報アンダーラインを考慮した新しい協調認識フレームワークである。
論文 参考訳(メタデータ) (2023-07-31T09:33:19Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - UMC: A Unified Bandwidth-efficient and Multi-resolution based
Collaborative Perception Framework [20.713675020714835]
UMCと呼ばれる統一協調認識フレームワークを提案する。
マルチレゾリューション技術を用いて,コミュニケーション,コラボレーション,再構築プロセスの最適化を図っている。
実験の結果,提案したUTCは,最先端の協調認識手法よりも優れていたことが確認された。
論文 参考訳(メタデータ) (2023-03-22T09:09:02Z) - Learning with MISELBO: The Mixture Cookbook [62.75516608080322]
本稿では,VampPriorとPixelCNNデコーダネットワークを用いて,フローベース階層型変分オートエンコーダ(VAE)の正規化のための変分近似を初めて提案する。
我々は、この協調行動について、VIと適応的重要度サンプリングの新たな関係を描いて説明する。
我々は、MNISTおよびFashionMNISTデータセット上の負のログ類似度の観点から、VAEアーキテクチャの最先端結果を得る。
論文 参考訳(メタデータ) (2022-09-30T15:01:35Z) - Global-and-Local Collaborative Learning for Co-Salient Object Detection [162.62642867056385]
Co-Salient Object Detection (CoSOD)の目標は、2つ以上の関連する画像を含むクエリグループに一般的に現れる有能なオブジェクトを見つけることである。
本稿では,グローバル対応モデリング(GCM)とローカル対応モデリング(LCM)を含む,グローバル・ローカル協調学習アーキテクチャを提案する。
提案したGLNetは3つの一般的なCoSODベンチマークデータセットに基づいて評価され、我々のモデルが小さなデータセット(約3k画像)でトレーニングされた場合、一部の大規模データセット(約8k-200k画像)でトレーニングされた11の最先端の競合製品(約8k-200k画像)を上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-19T14:32:41Z) - COVINS: Visual-Inertial SLAM for Centralized Collaboration [11.65456841016608]
協調的SLAMは、エージェントのグループが同時に環境を局所化し、共同でマッピングすることを可能にする。
本稿では,大規模環境においてマルチエージェントでスケーラブルなSLAMを実現する,新しい協調SLAMシステムであるCOVINSについて述べる。
論文 参考訳(メタデータ) (2021-08-12T13:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。