論文の概要: Linking Modality Isolation in Heterogeneous Collaborative Perception
- arxiv url: http://arxiv.org/abs/2603.00609v1
- Date: Sat, 28 Feb 2026 12:09:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.289657
- Title: Linking Modality Isolation in Heterogeneous Collaborative Perception
- Title(参考訳): 異種協調知覚におけるリンクモダリティの分離
- Authors: Changxing Liu, Zichen Chao, Siheng Chen,
- Abstract要約: そこで我々は, 横断的特徴コード機能変換(FCF)によってモダリティを円滑に整列させるフレームワークであるCodeAlignを提案する。
CodeAlignはFCF翻訳を学び、特徴を他のモダリティの対応するコードにマッピングし、対象のコード空間の機能に復号する。
3つのモードを統合する場合、CodeAlignは事前アライメント手法のトレーニングパラメータの8%しか必要とせず、通信負荷を1024倍に減らし、OPV2VとDAIRV2Xの両方のデータセットにおける最先端の知覚性能を実現する。
- 参考スコア(独自算出の注目度): 41.68601421239159
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Collaborative perception leverages data exchange among multiple agents to enhance overall perception capabilities. However, heterogeneity across agents introduces domain gaps that hinder collaboration, and this is further exacerbated by an underexplored issue: modality isolation. It arises when multiple agents with different modalities never co-occur in any training data frame, enlarging cross-modal domain gaps. Existing alignment methods rely on supervision from spatially overlapping observations, thus fail to handle modality isolation. To address this challenge, we propose CodeAlign, the first efficient, co-occurrence-free alignment framework that smoothly aligns modalities via cross-modal feature-code-feature(FCF) translation. The key idea is to explicitly identify the representation consistency through codebook, and directly learn mappings between modality-specific feature spaces, thereby eliminating the need for spatial correspondence. Codebooks regularize feature spaces into code spaces, providing compact yet expressive representations. With a prepared code space for each modality, CodeAlign learns FCF translations that map features to the corresponding codes of other modalities, which are then decoded back into features in the target code space, enabling effective alignment. Experiments show that, when integrating three modalities, CodeAlign requires only 8% of the training parameters of prior alignment methods, reduces communication load by 1024x, and achieves state-of-the-art perception performance on both OPV2V and DAIR-V2X dataset. Code will be released on https://github.com/cxliu0314/CodeAlign.
- Abstract(参考訳): 協調的知覚は、複数のエージェント間のデータ交換を活用し、全体的な知覚能力を高める。
しかし、エージェント間の不均一性は、協調を妨げるドメインギャップを導入し、これは未解決の問題であるモダリティ分離によってさらに悪化する。
異なるモダリティを持つ複数のエージェントが任意のトレーニングデータフレームで共起しないことで、クロスモーダルなドメインギャップが大きくなる。
既存のアライメント手法は、空間的に重なり合う観測の監督に依存しており、そのため、モダリティ分離を処理できない。
この課題に対処するため、我々は、横断的特徴コード機能変換(FCF)によってモダリティを円滑に整列する、最初の効率的で共起のないアライメントフレームワークであるCodeAlignを提案する。
鍵となる考え方は、コードブックを通じて表現整合性を明示的に識別し、モダリティ固有の特徴空間間のマッピングを直接学習することで、空間対応の必要性をなくすことである。
コードブックは機能空間をコード空間に正規化し、コンパクトで表現力のある表現を提供する。
それぞれのモダリティのための準備されたコード空間で、CodeAlignはFCF翻訳を学び、特徴を他のモダリティの対応するコードにマッピングし、ターゲットのコード空間の機能に復号し、効果的なアライメントを可能にする。
3つのモードを統合する場合、CodeAlignは事前アライメントメソッドのトレーニングパラメータの8%しか必要とせず、通信負荷を1024倍に削減し、OPV2VとDAIR-V2Xデータセットの両方で最先端の知覚性能を実現する。
コードはhttps://github.com/cxliu0314/CodeAlignでリリースされる。
関連論文リスト
- CoDS: Enhancing Collaborative Perception in Heterogeneous Scenarios via Domain Separation [25.442016145030383]
協調的知覚は、自律運転における個人の知覚を改善することが証明されている。
ほとんどのメソッドは、すべてのエージェントに対して同一のエンコーダを仮定するが、これらのモデルが現実世界のアプリケーションにデプロイされる際には正しくは保たない。
既存の手法は通常、隣接する特徴とエゴ車の特徴とを一致させるが、これはドメインギャップからのノイズに弱い。
論文 参考訳(メタデータ) (2025-10-15T11:29:14Z) - Cross-modal Full-mode Fine-grained Alignment for Text-to-Image Person Retrieval [54.90229711181207]
TIPR (Text-to-Image Person Retrieval) は、与えられたテキストクエリに基づいて、最も関連性の高い人物画像を取得することを目的としている。
TIPRの鍵となる課題は、テキストと視覚のモダリティの効果的なアライメントを達成することである。
FMFA, クロスモーダルフルモーデファインファインファインファインアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-17T07:12:05Z) - Style Quantization for Data-Efficient GAN Training [18.40243591024141]
限られたデータ設定の下では、GANは入力潜在空間をナビゲートし効果的に活用するのに苦労することが多い。
一貫性の整合性を高める新しいアプローチである textitSQ-GAN を提案する。
実験は判別器の堅牢性と生成品質の両方において顕著な改善を示した。
論文 参考訳(メタデータ) (2025-03-31T16:28:44Z) - From Limited Labels to Open Domains:An Efficient Learning Method for Drone-view Geo-Localization [12.785100004522059]
従来のドローンビュージオローカライゼーション(DVGL)手法は、ペア化されたトレーニングデータに大きく依存している。
DVGL法は、新しいペアデータを取得し、その後のモデル適応のための再訓練を必要とする。
本稿では,限られた監督力を有するクロスドメイン不変知識伝達ネットワーク(CDIKTNet)を提案する。
論文 参考訳(メタデータ) (2025-03-10T16:46:43Z) - Exploring Homogeneous and Heterogeneous Consistent Label Associations for Unsupervised Visible-Infrared Person ReID [57.500045584556794]
均質かつ不均一なインスタンスレベルの構造を同時に説明できるModality-Unified Label Transfer (MULT) モジュールを導入する。
提案したMULTは、生成した擬似ラベルがモダリティ間の整合性を維持しつつ、モダリティ内の構造的整合性を維持することを保証する。
実験の結果,提案手法は既存のUSL-VI-ReID法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-01T15:33:17Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - HSVA: Hierarchical Semantic-Visual Adaptation for Zero-Shot Learning [74.76431541169342]
ゼロショット学習(ZSL)は、目に見えないクラス認識の問題に取り組み、目に見えないクラスから目に見えないクラスに意味的な知識を移す。
本稿では,意味領域と視覚領域を協調させる新しい階層型意味視覚適応(HSVA)フレームワークを提案する。
4つのベンチマークデータセットの実験では、HSVAは従来のZSLと一般的なZSLの両方で優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-30T14:27:50Z) - AlignSeg: Feature-Aligned Segmentation Networks [109.94809725745499]
本稿では,機能集約プロセスにおける誤アライメント問題に対処するために,特徴適応型ネットワーク(AlignSeg)を提案する。
我々のネットワークは、それぞれ82.6%と45.95%という新しい最先端のmIoUスコアを達成している。
論文 参考訳(メタデータ) (2020-02-24T10:00:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。