論文の概要: CoST: Efficient Collaborative Perception From Unified Spatiotemporal Perspective
- arxiv url: http://arxiv.org/abs/2508.00359v1
- Date: Fri, 01 Aug 2025 06:45:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.760966
- Title: CoST: Efficient Collaborative Perception From Unified Spatiotemporal Perspective
- Title(参考訳): CoST:統合時空間的視点からの効率的な協調的知覚
- Authors: Zongheng Tang, Yi Liu, Yifan Sun, Yulu Gao, Jinyu Chen, Runsheng Xu, Si Liu,
- Abstract要約: Co-temporal Transformer (CoST) は特定のメソッドに縛られておらず、以前のほとんどのメソッドと互換性がある。
CoSTは特定の方法に縛られておらず、従来の方法の大多数と互換性があり、伝送帯域幅を小さくしながら精度を高めている。
- 参考スコア(独自算出の注目度): 18.361650899894883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Collaborative perception shares information among different agents and helps solving problems that individual agents may face, e.g., occlusions and small sensing range. Prior methods usually separate the multi-agent fusion and multi-time fusion into two consecutive steps. In contrast, this paper proposes an efficient collaborative perception that aggregates the observations from different agents (space) and different times into a unified spatio-temporal space simultanesouly. The unified spatio-temporal space brings two benefits, i.e., efficient feature transmission and superior feature fusion. 1) Efficient feature transmission: each static object yields a single observation in the spatial temporal space, and thus only requires transmission only once (whereas prior methods re-transmit all the object features multiple times). 2) superior feature fusion: merging the multi-agent and multi-time fusion into a unified spatial-temporal aggregation enables a more holistic perspective, thereby enhancing perception performance in challenging scenarios. Consequently, our Collaborative perception with Spatio-temporal Transformer (CoST) gains improvement in both efficiency and accuracy. Notably, CoST is not tied to any specific method and is compatible with a majority of previous methods, enhancing their accuracy while reducing the transmission bandwidth.
- Abstract(参考訳): 協調的知覚は、異なるエージェント間で情報を共有し、個々のエージェントが直面する可能性のある問題を解決する手助けをする。
従来の方法は通常、マルチエージェント核融合とマルチタイム核融合を2つの連続的なステップに分離する。
これとは対照的に,異なるエージェント(空間)と異なる時間からの観測を同時に一括時空間に集約する効率的な協調認識を提案する。
統合時空間は2つの利点、すなわち効率的な特徴伝達と優れた特徴融合をもたらす。
1) 効率的な特徴伝達: 各静的オブジェクトは空間的時間空間において1つの観測を出力するので、送信は1回しか必要としない(従来のメソッドでは、全てのオブジェクトの特徴を複数回再送信する)。
2) より優れた特徴融合: マルチエージェントとマルチタイム融合を統合された空間的時間的アグリゲーションにマージすることで, より包括的視点が実現され, 難解なシナリオにおける知覚性能が向上する。
その結果,時空間変圧器(CoST)を用いた協調認識は,効率と精度の両面で向上した。
特に、CoSTは特定の方法に縛られておらず、従来の方法の大多数と互換性があり、伝送帯域幅を小さくしながら精度を高めている。
関連論文リスト
- TraF-Align: Trajectory-aware Feature Alignment for Asynchronous Multi-agent Perception [7.382491303268417]
TraF-Alignは、過去の観測からエゴ車両の現在までの物体の特徴レベル軌道を予測することによって、特徴のフローパスを学習する。
このアプローチは空間的不整合を補正し、エージェント間のセマンティックな一貫性を確保し、効果的に動きを補償する。
2つの実世界のデータセットであるV2V4RealとDAIR-V2X-Seqの実験は、TraF-Alignが非同期協調知覚のための新しいベンチマークを設定していることを示している。
論文 参考訳(メタデータ) (2025-03-25T06:56:35Z) - V2XPnP: Vehicle-to-Everything Spatio-Temporal Fusion for Multi-Agent Perception and Prediction [44.40410127660706]
車間通信(V2X)技術は、単一車両システムにおける可観測性を制限するための有望なパラダイムを提供する。
以前の研究は主に、異なる場所の情報を融合するが、時間的・時間的手がかりを無視する単一フレーム協調認識に焦点を当てていた。
本稿では,1段階,複数段階の通信戦略(送信時)に着目し,その統合を3つの融合戦略で検討する。
論文 参考訳(メタデータ) (2024-12-02T18:55:34Z) - Cross Space and Time: A Spatio-Temporal Unitized Model for Traffic Flow Forecasting [16.782154479264126]
時間的要因間の複雑な相互作用により、バックボーン・時間的トラフィックフローを予測することが課題となる。
既存のアプローチでは、これらの次元を分離し、重要な相互依存を無視している。
本稿では,空間的および時間的依存関係の両方をキャプチャする統合フレームワークであるSanonymous-Temporal Unitized Unitized Cell (ASTUC)を紹介する。
論文 参考訳(メタデータ) (2024-11-14T07:34:31Z) - Sports-Traj: A Unified Trajectory Generation Model for Multi-Agent Movement in Sports [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを紹介する。
バスケットボールU,サッカーU,サッカーUの3つの実践的スポーツデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - E2E-MFD: Towards End-to-End Synchronous Multimodal Fusion Detection [21.185032466325737]
マルチモーダル核融合検出のための新しいエンドツーエンドアルゴリズムであるE2E-MFDを紹介する。
E2E-MFDはプロセスの合理化を図り、単一のトレーニングフェーズで高いパフォーマンスを達成する。
複数の公開データセットに対する広範なテストは、E2E-MFDの優れた機能を明らかにします。
論文 参考訳(メタデータ) (2024-03-14T12:12:17Z) - A Multi-Stage Adaptive Feature Fusion Neural Network for Multimodal Gait
Recognition [15.080096318551346]
多くの既存の歩行認識アルゴリズムは単調であり、少数のマルチモーダル歩行認識アルゴリズムは一度だけマルチモーダル融合を行う。
特徴抽出プロセスの異なる段階において多段階の融合を行う多段階特徴融合戦略(MSFFS)を提案する。
また,シルエットと骨格のセマンティックな関連性を考慮したAFFM(Adaptive Feature fusion Module)を提案する。
論文 参考訳(メタデータ) (2023-12-22T03:25:15Z) - A Decoupled Spatio-Temporal Framework for Skeleton-based Action
Segmentation [89.86345494602642]
既存の手法は、弱い時間的モデリング能力に制限されている。
この問題に対処するために、Decoupled Scoupled Framework (DeST)を提案する。
DeSTは計算量が少なく、現在の最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-10T09:11:39Z) - Spatial-Temporal Knowledge-Embedded Transformer for Video Scene Graph
Generation [64.85974098314344]
映像シーングラフ生成(VidSGG)は、映像シーン内の物体を特定し、その映像との関係を推測することを目的としている。
因みに、オブジェクトペアとその関係は、各画像内の空間的共起相関と、異なる画像間の時間的一貫性/遷移相関を享受する。
本稿では,従来の空間的時間的知識をマルチヘッド・クロスアテンション機構に組み込んだ時空間的知識埋め込み型トランス (STKET) を提案する。
論文 参考訳(メタデータ) (2023-09-23T02:40:28Z) - Coordinate Transformer: Achieving Single-stage Multi-person Mesh
Recovery from Videos [91.44553585470688]
ビデオから複数人の3Dメッシュを回収することは、バーチャルリアリティーや理学療法などにおけるグループ行動の自動認識に向けた重要な第一歩である。
本稿では,複数人物の時空間関係を直接モデル化し,同時にエンドツーエンドでマルチ・メッシュ・リカバリを行うコーディネート・トランスフォーマーを提案する。
3DPWデータセットの実験では、CoordFormerが最先端の精度を大幅に向上し、MPJPE、PAMPJPE、PVEの計測値でそれぞれ4.2%、8.8%、そして4.7%を上回った。
論文 参考訳(メタデータ) (2023-08-20T18:23:07Z) - DIR-AS: Decoupling Individual Identification and Temporal Reasoning for
Action Segmentation [84.78383981697377]
完全な教師付きアクションセグメンテーションは、高密度アノテーションによるフレームワイドアクション認識に作用し、しばしば過剰なセグメンテーションの問題に悩まされる。
本研究では, 時間的ピラミッド拡張と時間的ピラミッドプールを併用して, 効率的なマルチスケールアテンションを実現するため, 新たなローカル・グローバルアテンション機構を開発した。
GTEAでは82.8%(+2.6%)、Breakfastでは74.7%(+1.2%)の精度を実現し,本手法の有効性を示した。
論文 参考訳(メタデータ) (2023-04-04T20:27:18Z) - Spatio-temporal Gait Feature with Adaptive Distance Alignment [90.5842782685509]
我々は,ネットワーク構造の最適化と抽出した歩行特徴の洗練という2つの側面から,異なる被験者の歩行特徴の差を増大させようとしている。
提案手法は時空間特徴抽出(SFE)と適応距離アライメント(ADA)から構成される。
ADAは実生活における多数の未ラベルの歩行データをベンチマークとして使用し、抽出した時間的特徴を洗練し、クラス間類似度が低く、クラス内類似度が高いようにしている。
論文 参考訳(メタデータ) (2022-03-07T13:34:00Z) - A Spatial-Temporal Attentive Network with Spatial Continuity for
Trajectory Prediction [74.00750936752418]
空間連続性をもつ空間時間減衰ネットワーク(STAN-SC)という新しいモデルを提案する。
まず、最も有用かつ重要な情報を探るために、空間的時間的注意機構を提示する。
第2に、生成軌道の空間的連続性を維持するために、シーケンスと瞬間状態情報に基づく共同特徴系列を実行する。
論文 参考訳(メタデータ) (2020-03-13T04:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。