論文の概要: CollaMamba: Efficient Collaborative Perception with Cross-Agent Spatial-Temporal State Space Model
- arxiv url: http://arxiv.org/abs/2409.07714v3
- Date: Tue, 5 Nov 2024 02:59:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 21:42:46.699657
- Title: CollaMamba: Efficient Collaborative Perception with Cross-Agent Spatial-Temporal State Space Model
- Title(参考訳): CollaMamba: 空間-時間空間モデルを用いた効率的な協調認識
- Authors: Yang Li, Quan Yuan, Guiyang Luo, Xiaoyuan Fu, Xuanhan Zhu, Yujia Yang, Rui Pan, Jinglin Li,
- Abstract要約: マルチエージェント協調認識は環境のより深い理解を促進する。
協調知覚の最近の研究は、主にCNNやトランスフォーマーを用いて空間次元における特徴表現と融合を学習している。
資源効率の良い時間空間協調状態空間モデルCollaMambaを提案する。
- 参考スコア(独自算出の注目度): 12.461378793357705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: By sharing complementary perceptual information, multi-agent collaborative perception fosters a deeper understanding of the environment. Recent studies on collaborative perception mostly utilize CNNs or Transformers to learn feature representation and fusion in the spatial dimension, which struggle to handle long-range spatial-temporal features under limited computing and communication resources. Holistically modeling the dependencies over extensive spatial areas and extended temporal frames is crucial to enhancing feature quality. To this end, we propose a resource efficient cross-agent spatial-temporal collaborative state space model (SSM), named CollaMamba. Initially, we construct a foundational backbone network based on spatial SSM. This backbone adeptly captures positional causal dependencies from both single-agent and cross-agent views, yielding compact and comprehensive intermediate features while maintaining linear complexity. Furthermore, we devise a history-aware feature boosting module based on temporal SSM, extracting contextual cues from extended historical frames to refine vague features while preserving low overhead. Extensive experiments across several datasets demonstrate that CollaMamba outperforms state-of-the-art methods, achieving higher model accuracy while reducing computational and communication overhead by up to 71.9% and 1/64, respectively. This work pioneers the exploration of the Mamba's potential in collaborative perception. The source code will be made available.
- Abstract(参考訳): 補完的な知覚情報を共有することで、マルチエージェント協調認識は環境の深い理解を促進する。
近年のコラボレーティブ・インセプションの研究は、CNNやトランスフォーマーを用いて空間空間における特徴表現と融合を学習している。
空間的領域と時間的フレームの拡張による依存関係のモデリングは,特徴量の向上に不可欠である。
そこで本研究では,コラマンバ(CollaMamba)という,資源効率の良い時空間協調状態空間モデルを提案する。
まず,空間SSMに基づく基本バックボーンネットワークを構築した。
このバックボーンは、単一エージェントとクロスエージェントの両方のビューから位置因果依存性を順応的にキャプチャし、線形複雑性を維持しながらコンパクトで包括的な中間特徴をもたらす。
さらに、時間的SSMに基づく履歴認識機能強化モジュールを考案し、拡張履歴フレームから文脈的手がかりを抽出し、低オーバーヘッドを保ちながら曖昧な特徴を洗練させる。
複数のデータセットにわたる大規模な実験により、CollaMambaは最先端の手法より優れており、計算と通信のオーバーヘッドを最大71.9%、通信のオーバーヘッドを1/64まで削減し、より高いモデル精度を実現している。
この研究はマンバのコラボレーティブ・インセプションにおけるポテンシャルの探索の先駆者となった。
ソースコードは利用可能になる。
関連論文リスト
- Cross Space and Time: A Spatio-Temporal Unitized Model for Traffic Flow Forecasting [16.782154479264126]
時間的要因間の複雑な相互作用により、バックボーン・時間的トラフィックフローを予測することが課題となる。
既存のアプローチでは、これらの次元を分離し、重要な相互依存を無視している。
本稿では,空間的および時間的依存関係の両方をキャプチャする統合フレームワークであるSanonymous-Temporal Unitized Unitized Cell (ASTUC)を紹介する。
論文 参考訳(メタデータ) (2024-11-14T07:34:31Z) - PoseMamba: Monocular 3D Human Pose Estimation with Bidirectional Global-Local Spatio-Temporal State Space Model [7.286873011001679]
単眼ビデオにおける複雑な人間のポーズ推定のための線形相関を用いたSSMに基づく純粋手法を提案する。
具体的には、各フレーム内だけでなく、フレーム間の人間の関節関係を包括的にモデル化する、双方向の時間的・時間的ブロックを提案する。
この戦略により、より論理的な幾何学的順序付け戦略が提供され、結果として局所空間スキャンが組み合わせられる。
論文 参考訳(メタデータ) (2024-08-07T04:38:03Z) - Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。
バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - Auxiliary Tasks Benefit 3D Skeleton-based Human Motion Prediction [106.06256351200068]
本稿では,補助的なタスクを伴うモデル学習フレームワークを提案する。
補助作業では、部分体関節の座標はマスキングまたはノイズ付加によって損なわれる。
本稿では,不完全かつ破損した動作データを処理できる新しい補助適応変換器を提案する。
論文 参考訳(メタデータ) (2023-08-17T12:26:11Z) - Scalable Multi-agent Covering Option Discovery based on Kronecker Graphs [49.71319907864573]
本稿では,分解が容易なマルチエージェントスキル発見法を提案する。
我々のキーとなる考え方は、合同状態空間をクロネッカーグラフとして近似することであり、そのフィドラーベクトルを直接見積もることができる。
ラプラシアンスペクトルを直接計算することは、無限大の状態空間を持つタスクには難易度が高いことを考慮し、さらに本手法の深層学習拡張を提案する。
論文 参考訳(メタデータ) (2023-07-21T14:53:12Z) - Spatial-Temporal Graph Convolutional Gated Recurrent Network for Traffic
Forecasting [3.9761027576939414]
時空間グラフ畳み込みGated Recurrent Network (STGCGRN) という,トラフィック予測のための新しいフレームワークを提案する。
交通データ中の周期的な情報をマイニングすることで、長期依存を捕捉するアテンションモジュールを設計する。
4つのデータセットの実験は、我々のモデルの優れた性能を示している。
論文 参考訳(メタデータ) (2022-10-06T08:02:20Z) - LSTA-Net: Long short-term Spatio-Temporal Aggregation Network for
Skeleton-based Action Recognition [14.078419675904446]
LSTA-Net(英語版) - 新しい短期時空間ネットワーク。
時間的・短期的な情報は、既存の作品ではよく調べられていない。
3つの公開ベンチマークデータセットで実験が行われた。
論文 参考訳(メタデータ) (2021-11-01T10:53:35Z) - Temporal Memory Relation Network for Workflow Recognition from Surgical
Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。
我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文 参考訳(メタデータ) (2021-03-30T13:20:26Z) - ORDNet: Capturing Omni-Range Dependencies for Scene Parsing [135.11360962062957]
Omni-Range Dependencies Network(ORDNet)を構築し、短距離、中長距離の依存関係を効果的にキャプチャします。
我々のORDNetは、より包括的なコンテキスト情報を抽出し、シーンイメージの複雑な空間分散に順応することができる。
論文 参考訳(メタデータ) (2021-01-11T14:51:11Z) - A Spatial-Temporal Attentive Network with Spatial Continuity for
Trajectory Prediction [74.00750936752418]
空間連続性をもつ空間時間減衰ネットワーク(STAN-SC)という新しいモデルを提案する。
まず、最も有用かつ重要な情報を探るために、空間的時間的注意機構を提示する。
第2に、生成軌道の空間的連続性を維持するために、シーケンスと瞬間状態情報に基づく共同特徴系列を実行する。
論文 参考訳(メタデータ) (2020-03-13T04:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。