論文の概要: STAMP: Scalable Task And Model-agnostic Collaborative Perception
- arxiv url: http://arxiv.org/abs/2501.18616v1
- Date: Fri, 24 Jan 2025 16:27:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 22:46:12.759022
- Title: STAMP: Scalable Task And Model-agnostic Collaborative Perception
- Title(参考訳): STAMP: スケーラブルなタスクとモデルに依存しないコラボレーションの認識
- Authors: Xiangbo Gao, Runsheng Xu, Jiachen Li, Ziran Wang, Zhiwen Fan, Zhengzhong Tu,
- Abstract要約: STAMPは、異種エージェントのためのタスクおよびモデルに依存しない協調認識パイプラインである。
計算オーバーヘッドを最小限に抑え、スケーラビリティを高め、モデルのセキュリティを維持する。
第一種フレームワークとしてSTAMPは,スケーラブルでセキュアなモビリティシステムの研究を,レベル5の自律性に向けて進めることを目指している。
- 参考スコア(独自算出の注目度): 24.890993164334766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Perception is crucial for autonomous driving, but single-agent perception is often constrained by sensors' physical limitations, leading to degraded performance under severe occlusion, adverse weather conditions, and when detecting distant objects. Multi-agent collaborative perception offers a solution, yet challenges arise when integrating heterogeneous agents with varying model architectures. To address these challenges, we propose STAMP, a scalable task- and model-agnostic, collaborative perception pipeline for heterogeneous agents. STAMP utilizes lightweight adapter-reverter pairs to transform Bird's Eye View (BEV) features between agent-specific and shared protocol domains, enabling efficient feature sharing and fusion. This approach minimizes computational overhead, enhances scalability, and preserves model security. Experiments on simulated and real-world datasets demonstrate STAMP's comparable or superior accuracy to state-of-the-art models with significantly reduced computational costs. As a first-of-its-kind task- and model-agnostic framework, STAMP aims to advance research in scalable and secure mobility systems towards Level 5 autonomy. Our project page is at https://xiangbogaobarry.github.io/STAMP and the code is available at https://github.com/taco-group/STAMP.
- Abstract(参考訳): 知覚は自律運転には不可欠であるが、単一エージェントの知覚はセンサーの物理的制限によって制限されることが多く、重度の閉塞、悪天候条件下での性能低下、遠方からの物体の検出などに繋がる。
マルチエージェント協調認識は解決策を提供するが、異種エージェントと様々なモデルアーキテクチャを統合する際に問題が発生する。
これらの課題に対処するため、異種エージェントのためのスケーラブルなタスク・モデルに依存しない協調認識パイプラインSTAMPを提案する。
STAMPは軽量のアダプタ-リバータペアを使用して、Birdのアイビュー(BEV)機能をエージェント固有のプロトコルドメインと共有プロトコルドメインに変換し、効率的な機能共有と融合を可能にする。
このアプローチは計算オーバーヘッドを最小化し、スケーラビリティを高め、モデルのセキュリティを維持する。
シミュレーションおよび実世界のデータセットの実験は、STAMPの計算コストを大幅に削減した最先端モデルに匹敵する精度または優れた精度を示す。
タスクとモデルに依存しない最初のフレームワークとして、STAMPは、スケーラブルでセキュアなモビリティシステムの研究をレベル5の自律性に向けて進めることを目指している。
私たちのプロジェクトページはhttps://xiangbogaobarry.github.io/STAMPで、コードはhttps://github.com/taco-group/STAMPで利用可能です。
関連論文リスト
- Model Merging in the Essential Subspace [78.5390284258307]
モデルマージは、複数のタスク固有の細調整されたモデルを、追加のトレーニングなしで単一のマルチタスクモデルに統合することを目的としている。
広範囲の研究にもかかわらず、タスク干渉は依然として大きな障害であり、しばしば統合されたモデルの性能を損なう。
効率的なモデルマージのための堅牢なフレームワークであるESM(Essential Subspace Merging)を提案する。
論文 参考訳(メタデータ) (2026-02-23T00:33:38Z) - AI-NativeBench: An Open-Source White-Box Agentic Benchmark Suite for AI-Native Systems [52.65695508605237]
我々は、Model Context Protocol(MCP)とAgent-to-Agent(A2A)標準に基づいて、アプリケーション中心でホワイトボックスのAI-NativeベンチマークスイートであるAI-NativeBenchを紹介する。
エージェントスパンを分散トレース内の第一級市民として扱うことにより,本手法は,単純な機能以上の工学的特性の粒度解析を可能にする。
この研究は、モデル能力の測定から信頼性の高いAI-Nativeシステムへの移行を導く最初の体系的な証拠を提供する。
論文 参考訳(メタデータ) (2026-01-14T11:32:07Z) - Training One Model to Master Cross-Level Agentic Actions via Reinforcement Learning [42.1534425503333]
CrossAgentは異種作用空間をマスターし、軌道の各ステップで最も効果的なインターフェースを自律的に選択する統合エージェントモデルである。
オープンソースのMinecraft環境における800以上のタスクの実験は、CrossAgentが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-12-10T14:52:29Z) - VISTA: A Vision and Intent-Aware Social Attention Framework for Multi-Agent Trajectory Prediction [4.4382802228131455]
マルチエージェント軌道予測のための目標条件変換器 VISTA を提案する。
高密度のMADRASベンチマークでは、VISTAは最先端の精度を実現し、衝突は大幅に少ない。
これらの結果から, VISTAは社会的に適合し, 目標を意識し, 解釈可能な軌道を生成することがわかった。
論文 参考訳(メタデータ) (2025-11-13T11:17:01Z) - Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method [54.461213497603154]
作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得た。
Nuplan-Occは、広く使われているNuplanベンチマークから構築された、これまでで最大の占有率データセットである。
高品質な占有、多視点ビデオ、LiDAR点雲を共同で合成する統合フレームワークを開発した。
論文 参考訳(メタデータ) (2025-10-27T03:52:45Z) - Diffuse to Detect: A Generalizable Framework for Anomaly Detection with Diffusion Models Applications to UAVs and Beyond [2.4449457537548036]
UAVセンサーの読み取りなどの複雑な高次元データにおける異常検出は、運用上の安全性に不可欠である。
本稿では,拡散モデルを適用して異常検出を行うDiffuse to Detect(DTD)フレームワークを提案する。
DTDは1ステップの拡散プロセスを用いてノイズパターンを予測し、再構成エラーのない異常の迅速かつ正確な同定を可能にする。
論文 参考訳(メタデータ) (2025-10-27T02:08:08Z) - Agent4FaceForgery: Multi-Agent LLM Framework for Realistic Face Forgery Detection [108.5042835056188]
この作業では,2つの基本的な問題に対処するため,Agent4FaceForgeryを導入している。
人間の偽造の多様な意図と反復的なプロセスを捉える方法。
ソーシャルメディアの偽造に付随する複雑な、しばしば敵対的な、テキストと画像のインタラクションをモデル化する方法。
論文 参考訳(メタデータ) (2025-09-16T01:05:01Z) - Graph Based Deep Reinforcement Learning Aided by Transformers for Multi-Agent Cooperation [2.8169258551959544]
本稿では、グラフニューラルネットワーク(GNN)、深層強化学習(DRL)、マルチエージェント協調と集合タスク実行の強化のためのトランスフォーマーベースのメカニズムを統合する新しいフレームワークを提案する。
提案手法はGNNを用いて,適応グラフ構築によるエージェントエージェントとエージェントゴールの相互作用をモデル化し,制約付き通信下での効率的な情報集約と意思決定を可能にする。
論文 参考訳(メタデータ) (2025-04-11T01:46:18Z) - Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [56.424032454461695]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving [62.62464518137153]
DriveTransformerは、スケールアップを簡単にするためのシンプルなE2E-ADフレームワークである。
タスク・セルフ・アテンション、センサー・クロス・アテンション、時間的クロス・アテンションという3つの統合された操作で構成されている。
シミュレーションされたクローズドループベンチマークBench2Driveと、FPSの高い実世界のオープンループベンチマークnuScenesの両方で、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-07T11:41:18Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Learning a Fast Mixing Exogenous Block MDP using a Single Trajectory [87.62730694973696]
STEELは、単一軌道から外因性ブロックマルコフ決定過程の制御可能なダイナミクスを学習するための、最初の証明可能なサンプル効率アルゴリズムである。
我々は,STEELが正解であり,サンプル効率が良いことを証明し,STEELを2つの玩具問題で実証した。
論文 参考訳(メタデータ) (2024-10-03T21:57:21Z) - MACP: Efficient Model Adaptation for Cooperative Perception [23.308578463976804]
協調機能を備えた単エージェント事前学習モデルを備えたMACPという新しいフレームワークを提案する。
提案手法は,協調観測を効果的に活用し,他の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-10-25T14:24:42Z) - Practical Collaborative Perception: A Framework for Asynchronous and
Multi-Agent 3D Object Detection [9.967263440745432]
咬合は、LiDARベースのオブジェクト検出方法において大きな課題である。
最先端のV2X手法は、中間協調手法を用いて性能帯域幅のトレードオフを解消する。
我々は,従来の方法よりも帯域幅と性能のトレードオフを向上する,シンプルで効果的な協調手法を考案した。
論文 参考訳(メタデータ) (2023-07-04T03:49:42Z) - Exposing and Addressing Cross-Task Inconsistency in Unified
Vision-Language Models [80.23791222509644]
一貫性のないAIモデルは、人間のユーザーによって不安定で信頼できないと見なされている。
最先端のビジョン言語モデルは、タスク間の驚くほど高い一貫性のない振る舞いに悩まされている。
本稿では,大規模で自動生成されるクロスタスクコントラスト集合上で計算されたランク相関に基づく補助訓練目標を提案する。
論文 参考訳(メタデータ) (2023-03-28T16:57:12Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Differentiable Agent-based Epidemiology [71.81552021144589]
GradABM(GradABM)は、エージェントベースのモデリングのためのスケーラブルで微分可能な設計で、勾配に基づく学習と自動微分が可能である。
GradABMは、コモディティハードウェア上で数秒で数百万の人口をシミュレートし、ディープニューラルネットワークと統合し、異種データソースを取り込みます。
論文 参考訳(メタデータ) (2022-07-20T07:32:02Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z) - CvT-ASSD: Convolutional vision-Transformer Based Attentive Single Shot
MultiBox Detector [15.656374849760734]
本稿では、CvT-ASSD(Convolutional Vision Transformer Based Attentive Single Shot MultiBox Detector)という新しいオブジェクト検出アーキテクチャを提案する。
当社のモデルであるCvT-ASSDは,PASCAL VOCやMS COCOなどの大規模検出データセットで事前学習しながら,システム効率と性能を向上させることができる。
論文 参考訳(メタデータ) (2021-10-24T06:45:33Z) - P-WAE: Generalized Patch-Wasserstein Autoencoder for Anomaly Screening [17.24628770042803]
Patch-wise Wasserstein AutoEncoder (P-WAE) アーキテクチャを提案する。
特に、ジグソーパズルの解法と結合したパッチワイド変分推論モデルを設計する。
MVTec ADデータセットを用いた総合的な実験は、我々のプロポの優れた性能を実証する。
論文 参考訳(メタデータ) (2021-08-09T05:31:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。