論文の概要: ActFormer: Scalable Collaborative Perception via Active Queries
- arxiv url: http://arxiv.org/abs/2403.04968v1
- Date: Fri, 8 Mar 2024 00:45:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 21:26:54.037307
- Title: ActFormer: Scalable Collaborative Perception via Active Queries
- Title(参考訳): ActFormer: アクティブクエリによるスケーラブルな協調認識
- Authors: Suozhi Huang, Juexiao Zhang, Yiming Li, Chen Feng
- Abstract要約: 協調的知覚は、複数のロボットからの豊かな視覚的観察を利用して、単一のロボットの知覚能力を視野を超えて拡張する。
本稿では,鳥の目視(BEV)表現を予め定義されたBEVクエリを用いて学習し,マルチロボットマルチカメラ入力と対話するトランスフォーマーActFormerを提案する。
V2X-Simデータセットの実験では、ActFormerが検出性能を29.89%から45.15%に改善し、約50%のクエリが削減された。
- 参考スコア(独自算出の注目度): 12.020585564801781
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Collaborative perception leverages rich visual observations from multiple
robots to extend a single robot's perception ability beyond its field of view.
Many prior works receive messages broadcast from all collaborators, leading to
a scalability challenge when dealing with a large number of robots and sensors.
In this work, we aim to address \textit{scalable camera-based collaborative
perception} with a Transformer-based architecture. Our key idea is to enable a
single robot to intelligently discern the relevance of the collaborators and
their associated cameras according to a learned spatial prior. This proactive
understanding of the visual features' relevance does not require the
transmission of the features themselves, enhancing both communication and
computation efficiency. Specifically, we present ActFormer, a Transformer that
learns bird's eye view (BEV) representations by using predefined BEV queries to
interact with multi-robot multi-camera inputs. Each BEV query can actively
select relevant cameras for information aggregation based on pose information,
instead of interacting with all cameras indiscriminately. Experiments on the
V2X-Sim dataset demonstrate that ActFormer improves the detection performance
from 29.89% to 45.15% in terms of AP@0.7 with about 50% fewer queries,
showcasing the effectiveness of ActFormer in multi-agent collaborative 3D
object detection.
- Abstract(参考訳): 協調的知覚は、複数のロボットからの豊かな視覚的観察を利用して、単一のロボットの知覚能力を視野を超えて拡張する。
以前の仕事の多くは、すべての協力者からメッセージを受け取り、多数のロボットやセンサーを扱う際のスケーラビリティの課題に繋がる。
本研究では, トランスフォーマティブ・アーキテクチャを用いて, \textit{scalable camera-based collaborative perception} に対処することを目的とする。
私たちのキーとなるアイデアは、ひとつのロボットが、学習された空間的事前に応じて、共同作業者と関連するカメラの関連性をインテリジェントに識別できるようにすることです。
このような視覚的特徴の関連性の積極的な理解は、機能自体の伝達を必要としないため、コミュニケーションと計算効率が向上する。
具体的には、事前に定義されたBEVクエリを用いて鳥の目視(BEV)表現を学習し、マルチロボットマルチカメラ入力と対話するトランスフォーマーであるActFormerを提案する。
各BEVクエリは、すべてのカメラと無差別に対話するのではなく、ポーズ情報に基づく情報集約のための関連するカメラを積極的に選択することができる。
v2x-simデータセットの実験により、actformerはap@0.7で検出性能が29.89%から45.15%に向上し、クエリが約50%減少したことが示され、マルチエージェント3dオブジェクト検出におけるactformerの有効性が示された。
関連論文リスト
- IFTR: An Instance-Level Fusion Transformer for Visual Collaborative Perception [9.117534139771738]
自律運転の分野で広く認知されている技術として、マルチエージェント協調認識が出現している。
現在のコラボレーティブな認識は、主にLiDAR点雲に依存しており、カメラ画像を用いた手法にはあまり注目されていない。
本研究は,視覚的協調知覚のためのインスタンスレベルの融合変換器を提案する。
論文 参考訳(メタデータ) (2024-07-13T11:38:15Z) - Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - Polybot: Training One Policy Across Robots While Embracing Variability [70.74462430582163]
複数のロボットプラットフォームにデプロイするための単一のポリシーをトレーニングするための重要な設計決定セットを提案する。
われわれのフレームワークは、まず、手首カメラを利用して、我々のポリシーの観察空間と行動空間を具体化して調整する。
6つのタスクと3つのロボットにまたがる60時間以上のデータセットを用いて,関節の形状や大きさの異なるデータセットの評価を行った。
論文 参考訳(メタデータ) (2023-07-07T17:21:16Z) - Tactile-Filter: Interactive Tactile Perception for Part Mating [54.46221808805662]
人間は触覚と触覚に頼っている。
視覚ベースの触覚センサーは、様々なロボット認識や制御タスクに広く利用されている。
本稿では,視覚に基づく触覚センサを用いた対話的知覚手法を提案する。
論文 参考訳(メタデータ) (2023-03-10T16:27:37Z) - PACT: Perception-Action Causal Transformer for Autoregressive Robotics
Pre-Training [25.50131893785007]
本研究は,ロボットにおける複数のタスクの出発点として機能する汎用表現を事前学習するためのパラダイムを導入する。
本稿では,ロボットデータから直接表現を自己管理的に構築することを目的として,PACT(Perception-Action Causal Transformer)を提案する。
より大規模な事前学習モデル上に小さなタスク特化ネットワークを微調整すると、同時に1つのモデルをスクラッチからトレーニングするのに比べ、性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-09-22T16:20:17Z) - CoBEVT: Cooperative Bird's Eye View Semantic Segmentation with Sparse
Transformers [36.838065731893735]
CoBEVTは、BEVマップ予測を協調的に生成できる最初の汎用マルチエージェント認識フレームワークである。
CoBEVTは協調的BEVセマンティックセグメンテーションのための最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-05T17:59:28Z) - Look Closer: Bridging Egocentric and Third-Person Views with
Transformers for Robotic Manipulation [15.632809977544907]
視覚フィードバックから精度に基づく操作タスクを解くことは、従来のロボットシステムに必要なエンジニアリング労力を大幅に削減する可能性がある。
ロボットの手首に装着した3人称カメラと自我中心カメラの両方から視覚フィードバックを受けるロボット操作のための設定を提案する。
また,両カメラの視覚情報を効果的に融合するために,クロスビューアテンション機構を備えたトランスフォーマーを提案する。
論文 参考訳(メタデータ) (2022-01-19T18:39:03Z) - CNN-based Omnidirectional Object Detection for HermesBot Autonomous
Delivery Robot with Preliminary Frame Classification [53.56290185900837]
予備的バイナリフレーム分類を用いた物体検出のためのニューラルネットワークの最適化アルゴリズムを提案する。
周囲に6台のローリングシャッターカメラを備えた自律移動ロボットを360度視野として実験装置として使用した。
論文 参考訳(メタデータ) (2021-10-22T15:05:37Z) - One-Shot Object Affordance Detection in the Wild [76.46484684007706]
Affordance Detectionは、画像内のオブジェクトの潜在的なアクション可能性を特定することを指す。
我々は、人間の行動目的を推定し、それを転送して、すべての候補画像から共通価格を検出するワンショットアフォーダンス検出ネットワーク(OSAD-Net)を考案する。
複雑なシーンと豊富なアノテーションによって、当社のPADv2データセットは、アベイランス検出メソッドをベンチマークするためのテストベッドとして使用することができます。
論文 参考訳(メタデータ) (2021-08-08T14:53:10Z) - Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。
しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。
本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。