論文の概要: Beyond BEV: Optimizing Point-Level Tokens for Collaborative Perception
- arxiv url: http://arxiv.org/abs/2508.19638v1
- Date: Wed, 27 Aug 2025 07:27:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.544366
- Title: Beyond BEV: Optimizing Point-Level Tokens for Collaborative Perception
- Title(参考訳): BEVを超えて - コラボレーションの知覚のためのポイントレベルトークンの最適化
- Authors: Yang Li, Quan Yuan, Guiyang Luo, Xiaoyuan Fu, Rui Pan, Yujia Yang, Congzhang Shao, Yuewen Liu, Jinglin Li,
- Abstract要約: 協調的知覚により、エージェントは中間的特徴を交換することで知覚能力を高めることができる。
既存の手法は通常、これらの中間機能を2D Bird's-eye-view (BEV)表現として整理する。
ポイントレベル最適化トークンを利用した新しい協調認識フレームワークであるCoPLOTを提案する。
- 参考スコア(独自算出の注目度): 17.654858416126093
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Collaborative perception allows agents to enhance their perceptual capabilities by exchanging intermediate features. Existing methods typically organize these intermediate features as 2D bird's-eye-view (BEV) representations, which discard critical fine-grained 3D structural cues essential for accurate object recognition and localization. To this end, we first introduce point-level tokens as intermediate representations for collaborative perception. However, point-cloud data are inherently unordered, massive, and position-sensitive, making it challenging to produce compact and aligned point-level token sequences that preserve detailed structural information. Therefore, we present CoPLOT, a novel Collaborative perception framework that utilizes Point-Level Optimized Tokens. It incorporates a point-native processing pipeline, including token reordering, sequence modeling, and multi-agent spatial alignment. A semantic-aware token reordering module generates adaptive 1D reorderings by leveraging scene-level and token-level semantic information. A frequency-enhanced state space model captures long-range sequence dependencies across both spatial and spectral domains, improving the differentiation between foreground tokens and background clutter. Lastly, a neighbor-to-ego alignment module applies a closed-loop process, combining global agent-level correction with local token-level refinement to mitigate localization noise. Extensive experiments on both simulated and real-world datasets show that CoPLOT outperforms state-of-the-art models, with even lower communication and computation overhead. Code will be available at https://github.com/CheeryLeeyy/CoPLOT.
- Abstract(参考訳): 協調的知覚により、エージェントは中間的特徴を交換することで知覚能力を高めることができる。
既存の手法では、これらの中間的な特徴を2D Bird's-eye-view (BEV) 表現として整理し、正確な物体認識と局所化に欠かせない重要な微細な3D構造的手がかりを排除している。
この目的のために,まず,協調認識のための中間表現としてポイントレベルトークンを導入する。
しかし、ポイントクラウドデータは本質的に秩序がなく、大規模で、位置感受性が高いため、詳細な構造情報を保持するコンパクトで整列したポイントレベルのトークンシーケンスを生成することは困難である。
そこで我々は,ポイントレベル最適化トークンを利用した新しい協調認識フレームワークであるCoPLOTを提案する。
トークンの並べ替え、シーケンスモデリング、マルチエージェント空間アライメントなど、ポイントネイティブな処理パイプラインが組み込まれている。
セマンティック・アウェア・トークン・リオーダリングモジュールは、シーンレベルおよびトークンレベルのセマンティック情報を活用することで適応的な1次元リオーダリングを生成する。
周波数強調状態空間モデルは、空間領域とスペクトル領域の両方にわたる長距離シーケンス依存性をキャプチャし、前景トークンと背景クラッタの区別を改善する。
最後に、隣人同士のアライメントモジュールがクローズドループプロセスを適用し、グローバルエージェントレベルの補正と局所トークンレベルの改善を組み合わせることで、ローカライゼーションノイズを緩和する。
シミュレーションと実世界の両方のデータセットに対する大規模な実験は、CoPLOTが最先端のモデルより優れており、通信と計算のオーバーヘッドはさらに低いことを示している。
コードはhttps://github.com/CheeryLeeyy/CoPLOT.comから入手できる。
関連論文リスト
- Self-Supervised and Generalizable Tokenization for CLIP-Based 3D Understanding [87.68271178167373]
凍結したCLIPバックボーンを用いたスケール不変表現学習のためのユニバーサル3Dトークン化器を提案する。
S4Tokenは、シーンスケールに関係なくセマンティックインフォームドトークンを生成するトークン化パイプラインである。
論文 参考訳(メタデータ) (2025-05-24T18:26:30Z) - FASTer: Focal Token Acquiring-and-Scaling Transformer for Long-term 3D Object Detection [9.291995455336929]
我々はFAST(Focal Token Acquring-and-Scaling Transformer)を提案する。
FASTerは、適応的で軽量な方法でトークンシーケンスを凝縮する。
性能と効率の両方で、他の最先端の検出器よりも大幅に優れています。
論文 参考訳(メタデータ) (2025-02-28T03:15:33Z) - Coupled Laplacian Eigenmaps for Locally-Aware 3D Rigid Point Cloud Matching [0.0]
局所構造を考慮したグラフラプラシアン固有写像に基づく新しい手法を提案する。
ラプラシアン固有写像の順序と符号のあいまいさに対処するために、結合ラプラシアンと呼ばれる新しい作用素を導入する。
これらの高次元空間間の類似性は、形状に一致するような局所的な意味のあるスコアを与えることを示す。
論文 参考訳(メタデータ) (2024-02-27T10:10:12Z) - Frequency Perception Network for Camouflaged Object Detection [51.26386921922031]
周波数領域のセマンティック階層によって駆動される新しい学習可能かつ分離可能な周波数知覚機構を提案する。
ネットワーク全体では、周波数誘導粗い局所化ステージと細部保存の微細局在化ステージを含む2段階モデルを採用している。
提案手法は,既存のモデルと比較して,3つのベンチマークデータセットにおいて競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-17T11:30:46Z) - DenseDINO: Boosting Dense Self-Supervised Learning with Token-Based
Point-Level Consistency [12.881617910150688]
本稿では,DenseDINOと呼ばれる自己教師型学習のためのトランスフォーマーフレームワークを提案する。
具体的には、DenseDINOは参照トークンと呼ばれるいくつかの追加の入力トークンを導入し、ポイントレベルの特徴と以前の位置とを一致させる。
提案手法は,バニラDINOと比較して,ImageNetの分類で評価すると,競争性能が向上する。
論文 参考訳(メタデータ) (2023-06-06T15:04:45Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Learning Local Displacements for Point Cloud Completion [93.54286830844134]
本稿では,3次元点雲として表現された部分的スキャンからオブジェクトとセマンティックシーンを補完する手法を提案する。
アーキテクチャはエンコーダ-デコーダ構造内で連続的に使用される3つの新しいレイヤに依存している。
オブジェクトと屋内の両方のシーン完了タスクにおけるアーキテクチャの評価を行い、最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-30T18:31:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。