論文の概要: STAMP: Scalable Task And Model-agnostic Collaborative Perception
- arxiv url: http://arxiv.org/abs/2501.18616v1
- Date: Fri, 24 Jan 2025 16:27:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 22:46:12.759022
- Title: STAMP: Scalable Task And Model-agnostic Collaborative Perception
- Title(参考訳): STAMP: スケーラブルなタスクとモデルに依存しないコラボレーションの認識
- Authors: Xiangbo Gao, Runsheng Xu, Jiachen Li, Ziran Wang, Zhiwen Fan, Zhengzhong Tu,
- Abstract要約: STAMPは、異種エージェントのためのタスクおよびモデルに依存しない協調認識パイプラインである。
計算オーバーヘッドを最小限に抑え、スケーラビリティを高め、モデルのセキュリティを維持する。
第一種フレームワークとしてSTAMPは,スケーラブルでセキュアなモビリティシステムの研究を,レベル5の自律性に向けて進めることを目指している。
- 参考スコア(独自算出の注目度): 24.890993164334766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Perception is crucial for autonomous driving, but single-agent perception is often constrained by sensors' physical limitations, leading to degraded performance under severe occlusion, adverse weather conditions, and when detecting distant objects. Multi-agent collaborative perception offers a solution, yet challenges arise when integrating heterogeneous agents with varying model architectures. To address these challenges, we propose STAMP, a scalable task- and model-agnostic, collaborative perception pipeline for heterogeneous agents. STAMP utilizes lightweight adapter-reverter pairs to transform Bird's Eye View (BEV) features between agent-specific and shared protocol domains, enabling efficient feature sharing and fusion. This approach minimizes computational overhead, enhances scalability, and preserves model security. Experiments on simulated and real-world datasets demonstrate STAMP's comparable or superior accuracy to state-of-the-art models with significantly reduced computational costs. As a first-of-its-kind task- and model-agnostic framework, STAMP aims to advance research in scalable and secure mobility systems towards Level 5 autonomy. Our project page is at https://xiangbogaobarry.github.io/STAMP and the code is available at https://github.com/taco-group/STAMP.
- Abstract(参考訳): 知覚は自律運転には不可欠であるが、単一エージェントの知覚はセンサーの物理的制限によって制限されることが多く、重度の閉塞、悪天候条件下での性能低下、遠方からの物体の検出などに繋がる。
マルチエージェント協調認識は解決策を提供するが、異種エージェントと様々なモデルアーキテクチャを統合する際に問題が発生する。
これらの課題に対処するため、異種エージェントのためのスケーラブルなタスク・モデルに依存しない協調認識パイプラインSTAMPを提案する。
STAMPは軽量のアダプタ-リバータペアを使用して、Birdのアイビュー(BEV)機能をエージェント固有のプロトコルドメインと共有プロトコルドメインに変換し、効率的な機能共有と融合を可能にする。
このアプローチは計算オーバーヘッドを最小化し、スケーラビリティを高め、モデルのセキュリティを維持する。
シミュレーションおよび実世界のデータセットの実験は、STAMPの計算コストを大幅に削減した最先端モデルに匹敵する精度または優れた精度を示す。
タスクとモデルに依存しない最初のフレームワークとして、STAMPは、スケーラブルでセキュアなモビリティシステムの研究をレベル5の自律性に向けて進めることを目指している。
私たちのプロジェクトページはhttps://xiangbogaobarry.github.io/STAMPで、コードはhttps://github.com/taco-group/STAMPで利用可能です。
関連論文リスト
- Graph Based Deep Reinforcement Learning Aided by Transformers for Multi-Agent Cooperation [2.8169258551959544]
本稿では、グラフニューラルネットワーク(GNN)、深層強化学習(DRL)、マルチエージェント協調と集合タスク実行の強化のためのトランスフォーマーベースのメカニズムを統合する新しいフレームワークを提案する。
提案手法はGNNを用いて,適応グラフ構築によるエージェントエージェントとエージェントゴールの相互作用をモデル化し,制約付き通信下での効率的な情報集約と意思決定を可能にする。
論文 参考訳(メタデータ) (2025-04-11T01:46:18Z) - Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [56.424032454461695]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving [62.62464518137153]
DriveTransformerは、スケールアップを簡単にするためのシンプルなE2E-ADフレームワークである。
タスク・セルフ・アテンション、センサー・クロス・アテンション、時間的クロス・アテンションという3つの統合された操作で構成されている。
シミュレーションされたクローズドループベンチマークBench2Driveと、FPSの高い実世界のオープンループベンチマークnuScenesの両方で、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-07T11:41:18Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Learning a Fast Mixing Exogenous Block MDP using a Single Trajectory [87.62730694973696]
STEELは、単一軌道から外因性ブロックマルコフ決定過程の制御可能なダイナミクスを学習するための、最初の証明可能なサンプル効率アルゴリズムである。
我々は,STEELが正解であり,サンプル効率が良いことを証明し,STEELを2つの玩具問題で実証した。
論文 参考訳(メタデータ) (2024-10-03T21:57:21Z) - MACP: Efficient Model Adaptation for Cooperative Perception [23.308578463976804]
協調機能を備えた単エージェント事前学習モデルを備えたMACPという新しいフレームワークを提案する。
提案手法は,協調観測を効果的に活用し,他の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-10-25T14:24:42Z) - Practical Collaborative Perception: A Framework for Asynchronous and
Multi-Agent 3D Object Detection [9.967263440745432]
咬合は、LiDARベースのオブジェクト検出方法において大きな課題である。
最先端のV2X手法は、中間協調手法を用いて性能帯域幅のトレードオフを解消する。
我々は,従来の方法よりも帯域幅と性能のトレードオフを向上する,シンプルで効果的な協調手法を考案した。
論文 参考訳(メタデータ) (2023-07-04T03:49:42Z) - Exposing and Addressing Cross-Task Inconsistency in Unified
Vision-Language Models [80.23791222509644]
一貫性のないAIモデルは、人間のユーザーによって不安定で信頼できないと見なされている。
最先端のビジョン言語モデルは、タスク間の驚くほど高い一貫性のない振る舞いに悩まされている。
本稿では,大規模で自動生成されるクロスタスクコントラスト集合上で計算されたランク相関に基づく補助訓練目標を提案する。
論文 参考訳(メタデータ) (2023-03-28T16:57:12Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Differentiable Agent-based Epidemiology [71.81552021144589]
GradABM(GradABM)は、エージェントベースのモデリングのためのスケーラブルで微分可能な設計で、勾配に基づく学習と自動微分が可能である。
GradABMは、コモディティハードウェア上で数秒で数百万の人口をシミュレートし、ディープニューラルネットワークと統合し、異種データソースを取り込みます。
論文 参考訳(メタデータ) (2022-07-20T07:32:02Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z) - CvT-ASSD: Convolutional vision-Transformer Based Attentive Single Shot
MultiBox Detector [15.656374849760734]
本稿では、CvT-ASSD(Convolutional Vision Transformer Based Attentive Single Shot MultiBox Detector)という新しいオブジェクト検出アーキテクチャを提案する。
当社のモデルであるCvT-ASSDは,PASCAL VOCやMS COCOなどの大規模検出データセットで事前学習しながら,システム効率と性能を向上させることができる。
論文 参考訳(メタデータ) (2021-10-24T06:45:33Z) - P-WAE: Generalized Patch-Wasserstein Autoencoder for Anomaly Screening [17.24628770042803]
Patch-wise Wasserstein AutoEncoder (P-WAE) アーキテクチャを提案する。
特に、ジグソーパズルの解法と結合したパッチワイド変分推論モデルを設計する。
MVTec ADデータセットを用いた総合的な実験は、我々のプロポの優れた性能を実証する。
論文 参考訳(メタデータ) (2021-08-09T05:31:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。