論文の概要: CoopTrack: Exploring End-to-End Learning for Efficient Cooperative Sequential Perception
- arxiv url: http://arxiv.org/abs/2507.19239v1
- Date: Fri, 25 Jul 2025 13:04:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.964355
- Title: CoopTrack: Exploring End-to-End Learning for Efficient Cooperative Sequential Perception
- Title(参考訳): CoopTrack: 効率的な協調シーケンス認識のためのエンドツーエンド学習
- Authors: Jiaru Zhong, Jiahao Wang, Jiahui Xu, Xiaofan Li, Zaiqing Nie, Haibao Yu,
- Abstract要約: 協調トラッキングのための完全なインスタンスレベルのエンドツーエンドフレームワークであるCoopTrackを提案する。
CoopTrackは学習可能なインスタンスアソシエーションを特徴としている。
V2X-SeqデータセットとGriffinデータセットの両方の実験は、CoopTrackが優れたパフォーマンスを実現していることを示している。
- 参考スコア(独自算出の注目度): 13.32869419720427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cooperative perception aims to address the inherent limitations of single-vehicle autonomous driving systems through information exchange among multiple agents. Previous research has primarily focused on single-frame perception tasks. However, the more challenging cooperative sequential perception tasks, such as cooperative 3D multi-object tracking, have not been thoroughly investigated. Therefore, we propose CoopTrack, a fully instance-level end-to-end framework for cooperative tracking, featuring learnable instance association, which fundamentally differs from existing approaches. CoopTrack transmits sparse instance-level features that significantly enhance perception capabilities while maintaining low transmission costs. Furthermore, the framework comprises two key components: Multi-Dimensional Feature Extraction, and Cross-Agent Association and Aggregation, which collectively enable comprehensive instance representation with semantic and motion features, and adaptive cross-agent association and fusion based on a feature graph. Experiments on both the V2X-Seq and Griffin datasets demonstrate that CoopTrack achieves excellent performance. Specifically, it attains state-of-the-art results on V2X-Seq, with 39.0\% mAP and 32.8\% AMOTA. The project is available at https://github.com/zhongjiaru/CoopTrack.
- Abstract(参考訳): 協調認識は、複数のエージェント間の情報交換を通じて、単一車両の自律走行システムの固有の制限に対処することを目的としている。
これまでの研究は主に単一フレームの知覚タスクに重点を置いてきた。
しかし、協調的な3次元多目的追跡のようなより困難な協調的逐次的知覚タスクは、十分に研究されていない。
そこで本研究では,既存の手法と根本的に異なる学習可能なインスタンスアソシエーションを特徴とする,完全にインスタンスレベルのエンドツーエンドな協調トラッキングフレームワークであるCoopTrackを提案する。
CoopTrackは、低い送信コストを維持しながら認識能力を著しく向上するスパースインスタンスレベルの機能を送信します。
さらに、多次元特徴抽出とクロスエージェントアソシエーションとアグリゲーションという2つの重要なコンポーネントから構成されており、セマンティックおよびモーション特徴による総合的なインスタンス表現と、特徴グラフに基づく適応的クロスエージェントアソシエーションと融合を実現している。
V2X-SeqデータセットとGriffinデータセットの両方の実験は、CoopTrackが優れたパフォーマンスを実現していることを示している。
具体的には、V2X-Seqでは39.0\% mAPと32.8\% AMOTAで最先端の結果が得られる。
プロジェクトはhttps://github.com/zhongjiaru/CoopTrack.comで入手できる。
関連論文リスト
- What Makes Good Collaborative Views? Contrastive Mutual Information Maximization for Multi-Agent Perception [52.41695608928129]
マルチエージェント認識(MAP)は、複数のソースからのデータを解釈することで、自律システムが複雑な環境を理解することを可能にする。
本稿では,MAPにおける協調的視点の「良い」特性を探求することに焦点を当てた中間的協調について検討する。
中間コラボレーションのための新しいフレームワークCMiMCを提案する。
論文 参考訳(メタデータ) (2024-03-15T07:18:55Z) - V2X-AHD:Vehicle-to-Everything Cooperation Perception via Asymmetric
Heterogenous Distillation Network [13.248981195106069]
車両間協調認識システム(V2X-AHD)を提案する。
この研究によると、V2X-AHDは3次元物体検出の精度を効果的に向上し、ネットワークパラメータの数を削減できる。
論文 参考訳(メタデータ) (2023-10-10T13:12:03Z) - M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot
Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。
textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。
説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文 参考訳(メタデータ) (2023-08-06T09:15:14Z) - Practical Collaborative Perception: A Framework for Asynchronous and
Multi-Agent 3D Object Detection [9.967263440745432]
咬合は、LiDARベースのオブジェクト検出方法において大きな課題である。
最先端のV2X手法は、中間協調手法を用いて性能帯域幅のトレードオフを解消する。
我々は,従来の方法よりも帯域幅と性能のトレードオフを向上する,シンプルで効果的な協調手法を考案した。
論文 参考訳(メタデータ) (2023-07-04T03:49:42Z) - A Dynamic Feature Interaction Framework for Multi-task Visual Perception [100.98434079696268]
複数の共通認識課題を解決するための効率的な統合フレームワークを考案する。
これらのタスクには、インスタンスセグメンテーション、セマンティックセグメンテーション、モノクル3D検出、深さ推定が含まれる。
提案するフレームワークはD2BNetと呼ばれ,マルチタスク認識のためのパラメータ効率予測に一意なアプローチを示す。
論文 参考訳(メタデータ) (2023-06-08T09:24:46Z) - VINet: Lightweight, Scalable, and Heterogeneous Cooperative Perception
for 3D Object Detection [15.195933965761645]
協調知覚(CP)は自動運転の認知を著しく向上させる。
我々は、スケーラブルで軽量で異種な協調型3Dオブジェクト検出のための統合ディープラーニングベースのCPネットワークであるVINetを紹介する。
VINetは、システムレベルの計算コストが84%、システムレベルの通信コストが94%削減され、3D検出精度が向上する。
論文 参考訳(メタデータ) (2022-12-14T07:03:23Z) - A Unified Transformer Framework for Group-based Segmentation:
Co-Segmentation, Co-Saliency Detection and Video Salient Object Detection [59.21990697929617]
人間は、ダイナミックな世界に住んでいるので、画像のグループやビデオのフレームから学ぶことによってオブジェクトをマイニングする傾向があります。
従来のアプローチでは、類似したタスクで異なるネットワークを個別に設計するが、互いに適用するのは困難である。
UFO(UnifiedObject Framework for Co-Object Framework)という,これらの問題に対処するための統一フレームワークを導入する。
論文 参考訳(メタデータ) (2022-03-09T13:35:19Z) - CompFeat: Comprehensive Feature Aggregation for Video Instance
Segmentation [67.17625278621134]
ビデオインスタンスのセグメンテーションは、特定のビデオのそれぞれのオブジェクトを検出し、セグメンテーションし、追跡する必要がある複雑なタスクです。
従来のアプローチは、オブジェクトの検出、セグメンテーション、追跡にのみシングルフレーム機能を使用します。
本稿では,時間的および空間的コンテキスト情報を用いて,フレームレベルとオブジェクトレベルでの機能を洗練する新しい包括的特徴集約アプローチ(compfeat)を提案する。
論文 参考訳(メタデータ) (2020-12-07T00:31:42Z) - LiDAR-based Panoptic Segmentation via Dynamic Shifting Network [56.71765153629892]
LiDARベースのパノプティカルセグメンテーションは、オブジェクトとシーンを統一的に解析することを目的としている。
本稿では,ポイントクラウド領域における効果的な単視分割フレームワークとして機能する動的シフトネットワーク(DS-Net)を提案する。
提案するDS-Netは,現在の最先端手法よりも優れた精度を実現する。
論文 参考訳(メタデータ) (2020-11-24T08:44:46Z) - End-to-End 3D Multi-Object Tracking and Trajectory Forecasting [34.68114553744956]
3次元MOTと軌道予測の統一解を提案する。
グラフニューラルネットを導入して特徴相互作用技術を採用する。
また,予測トラジェクトリの品質と多様性を向上させるために,多様性サンプリング機能を利用する。
論文 参考訳(メタデータ) (2020-08-25T16:54:46Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。