論文の概要: V2X-DSC: Multi-Agent Collaborative Perception with Distributed Source Coding Guided Communication
- arxiv url: http://arxiv.org/abs/2602.00687v1
- Date: Sat, 31 Jan 2026 12:16:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.337414
- Title: V2X-DSC: Multi-Agent Collaborative Perception with Distributed Source Coding Guided Communication
- Title(参考訳): V2X-DSC:分散符号化誘導通信によるマルチエージェント協調認識
- Authors: Yuankun Zeng, Shaohui Li, Zhi Li, Shulan Ruan, Yu Liu, You He,
- Abstract要約: 協調知覚は、マルチエージェント観察を融合させて3次元理解を改善するが、中間機能共有は厳しい帯域幅制約に直面している。
本稿では,帯域幅制限型核融合のための条件付きコーデック(DCC)フレームワークであるV2X-DSCを提案する。
DAIR-V2X、OPV2V、V2X-Realの実験では、KBレベルの通信下での最先端の精度帯域幅トレードオフが示されている。
- 参考スコア(独自算出の注目度): 25.092575199683747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Collaborative perception improves 3D understanding by fusing multi-agent observations, yet intermediate-feature sharing faces strict bandwidth constraints as dense BEV features saturate V2X links. We observe that collaborators view the same physical world, making their features strongly correlated; thus receivers only need innovation beyond their local context. Revisiting this from a distributed source coding perspective, we propose V2X-DSC, a framework with a Conditional Codec (DCC) for bandwidth-constrained fusion. The sender compresses BEV features into compact codes, while the receiver performs conditional reconstruction using its local features as side information, allocating bits to complementary cues rather than redundant content. This conditional structure regularizes learning, encouraging incremental representation and yielding lower-noise features. Experiments on DAIR-V2X, OPV2V, and V2X-Real demonstrate state-of-the-art accuracy-bandwidth trade-offs under KB-level communication, and generalizes as a plug-and-play communication layer across multiple fusion backbones.
- Abstract(参考訳): 協調知覚は、マルチエージェント観測を融合することで3次元理解を改善するが、高密度なBEVがV2Xリンクを飽和させるため、中間機能共有は厳密な帯域制限に直面している。
我々は、共同作業者が同じ物理世界を見て、その特徴を強く相関させることを観察する。
分散ソース符号化の観点からこれを再考し,帯域幅制約融合のための条件付きコーデック(DCC)フレームワークであるV2X-DSCを提案する。
送信機は、BEV機能をコンパクトなコードに圧縮し、受信機は、そのローカルな特徴をサイド情報として条件付き再構成を行い、冗長な内容ではなく、補完的なキューにビットを割り当てる。
この条件構造は学習を規則化し、漸進的な表現を奨励し、低雑音の特徴を与える。
DAIR-V2X、OPV2V、V2X-Realの実験では、KBレベルの通信下での最先端の精度帯域幅トレードオフを実証し、複数の融合バックボーンにまたがるプラグアンドプレイ通信層として一般化する。
関連論文リスト
- Q-KVComm: Efficient Multi-Agent Communication Via Adaptive KV Cache Compression [0.0]
我々は,圧縮キー値(KV)キャッシュ表現をエージェント間で直接送信できる新しいプロトコルであるQ-KVCommを紹介する。
Q-KVCommはセマンティックな忠実さを維持しながら5-6倍の圧縮比を達成し、コヒーレンスの品質スコアはすべてのシナリオで0.77以上である。
我々の研究は、テキストベースの情報交換から表現ベースの情報交換へ移行し、LLMエージェント通信のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-11-27T10:45:41Z) - INSTINCT: Instance-Level Interaction Architecture for Query-Based Collaborative Perception [6.018757656052237]
協調認識システムは、マルチエージェントの知覚データを統合し、精度と安全性を向上させることで、単一車両の制限を克服する。
これまでの研究は、クエリベースのインスタンスレベルのインタラクションが帯域幅の要求と手作業による事前処理を減らすことを証明してきたが、協調認識におけるLiDARによる実装は未開発のままである。
InSTINCTは,(1)高品質なインスタンス特徴選択のための品質認識型フィルタリング機構,2)協調関連インスタンスと協調関連インスタンスを分離するデュアルブランチ検出ルーティングスキーム,3)クロスエージェントローカルインスタンスフュージョンモジュール,の3つのコアコンポーネントを特徴とする新しい協調認識フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-28T07:16:32Z) - Localizing Audio-Visual Deepfakes via Hierarchical Boundary Modeling [50.8215545241128]
私たちはaを提案します。
境界モデリングネットワーク(HBMNet)には、オーディオ・ビジュアル・フィーチャー(Audio-Visual Feature)という3つのモジュールが含まれている。
粗提案発電機と微細階層確率発生装置
モダリティの観点からは、フレームレベルの監督によって強化されたオーディオ・ビジュアル・エンコーディングと融合を強化する。
実験により、符号化と融合が主に精度を向上し、フレームレベルの監視リコールが可能であることが示された。
論文 参考訳(メタデータ) (2025-08-04T02:41:09Z) - V2X-DGPE: Addressing Domain Gaps and Pose Errors for Robust Collaborative 3D Object Detection [18.694510415777632]
V2X-DGPEは高精度で堅牢なV2X特徴レベルの協調認識フレームワークである。
提案手法は既存の手法より優れ、最先端検出性能を実現する。
論文 参考訳(メタデータ) (2025-01-04T19:28:55Z) - CooPre: Cooperative Pretraining for V2X Cooperative Perception [47.00472259100765]
CooPreは、V2X協調知覚のための自己教師型学習フラムワークである。
異種V2Xエージェント間の3D特徴に効果的に注意を向けることのできる,V2Xバードアイビュー(BEV)ガイドマスキング戦略を開発した。
CooPreはV2X-Realデータセットで4%のmAP改善を実現し、トレーニングデータの50%しか使用せず、ベースラインのパフォーマンスを上回っている。
論文 参考訳(メタデータ) (2024-08-20T23:39:26Z) - Diffusion-Driven Semantic Communication for Generative Models with Bandwidth Constraints [66.63250537475973]
本稿では,帯域制限付き生成モデルのための,高度なVAEベースの圧縮を用いた拡散駆動型セマンティック通信フレームワークを提案する。
実験の結果,ピーク信号対雑音比 (PSNR) などの画素レベルの指標と,LPIPS (Learning Perceptual Image patch similarity) のような意味的指標が大幅に改善された。
論文 参考訳(メタデータ) (2024-07-26T02:34:25Z) - Communication-Efficient Collaborative Perception via Information Filling with Codebook [48.087934650038044]
協調的知覚は、他のエージェントと知覚的メッセージの交換を通じて、各エージェントに知覚能力を向上させる権限を与える。
このボトルネック問題に対処するため、私たちの中核となる考え方は、協調メッセージを2つの重要な側面、すなわち表現と選択から最適化することにあります。
これら2つの設計を統合することで,新しいコミュニケーション効率の協調認識システムであるCodeFillingを提案する。
論文 参考訳(メタデータ) (2024-05-08T11:12:37Z) - V2X-ViT: Vehicle-to-Everything Cooperative Perception with Vision
Transformer [58.71845618090022]
我々は、道路上のエージェント間で情報を融合するために、V2X-ViTという全体論的アテンションモデルを構築した。
V2X-ViTは異質なマルチエージェント自己アテンションとマルチスケールウィンドウ自己アテンションの交互層から構成される。
我々のアプローチを検証するために、我々は大規模なV2X知覚データセットを作成します。
論文 参考訳(メタデータ) (2022-03-20T20:18:25Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。