論文の概要: ActFormer: Scalable Collaborative Perception via Active Queries
- arxiv url: http://arxiv.org/abs/2403.04968v1
- Date: Fri, 8 Mar 2024 00:45:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 21:26:54.037307
- Title: ActFormer: Scalable Collaborative Perception via Active Queries
- Title(参考訳): ActFormer: アクティブクエリによるスケーラブルな協調認識
- Authors: Suozhi Huang, Juexiao Zhang, Yiming Li, Chen Feng
- Abstract要約: 協調的知覚は、複数のロボットからの豊かな視覚的観察を利用して、単一のロボットの知覚能力を視野を超えて拡張する。
本稿では,鳥の目視(BEV)表現を予め定義されたBEVクエリを用いて学習し,マルチロボットマルチカメラ入力と対話するトランスフォーマーActFormerを提案する。
V2X-Simデータセットの実験では、ActFormerが検出性能を29.89%から45.15%に改善し、約50%のクエリが削減された。
- 参考スコア(独自算出の注目度): 12.020585564801781
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Collaborative perception leverages rich visual observations from multiple
robots to extend a single robot's perception ability beyond its field of view.
Many prior works receive messages broadcast from all collaborators, leading to
a scalability challenge when dealing with a large number of robots and sensors.
In this work, we aim to address \textit{scalable camera-based collaborative
perception} with a Transformer-based architecture. Our key idea is to enable a
single robot to intelligently discern the relevance of the collaborators and
their associated cameras according to a learned spatial prior. This proactive
understanding of the visual features' relevance does not require the
transmission of the features themselves, enhancing both communication and
computation efficiency. Specifically, we present ActFormer, a Transformer that
learns bird's eye view (BEV) representations by using predefined BEV queries to
interact with multi-robot multi-camera inputs. Each BEV query can actively
select relevant cameras for information aggregation based on pose information,
instead of interacting with all cameras indiscriminately. Experiments on the
V2X-Sim dataset demonstrate that ActFormer improves the detection performance
from 29.89% to 45.15% in terms of AP@0.7 with about 50% fewer queries,
showcasing the effectiveness of ActFormer in multi-agent collaborative 3D
object detection.
- Abstract(参考訳): 協調的知覚は、複数のロボットからの豊かな視覚的観察を利用して、単一のロボットの知覚能力を視野を超えて拡張する。
以前の仕事の多くは、すべての協力者からメッセージを受け取り、多数のロボットやセンサーを扱う際のスケーラビリティの課題に繋がる。
本研究では, トランスフォーマティブ・アーキテクチャを用いて, \textit{scalable camera-based collaborative perception} に対処することを目的とする。
私たちのキーとなるアイデアは、ひとつのロボットが、学習された空間的事前に応じて、共同作業者と関連するカメラの関連性をインテリジェントに識別できるようにすることです。
このような視覚的特徴の関連性の積極的な理解は、機能自体の伝達を必要としないため、コミュニケーションと計算効率が向上する。
具体的には、事前に定義されたBEVクエリを用いて鳥の目視(BEV)表現を学習し、マルチロボットマルチカメラ入力と対話するトランスフォーマーであるActFormerを提案する。
各BEVクエリは、すべてのカメラと無差別に対話するのではなく、ポーズ情報に基づく情報集約のための関連するカメラを積極的に選択することができる。
v2x-simデータセットの実験により、actformerはap@0.7で検出性能が29.89%から45.15%に向上し、クエリが約50%減少したことが示され、マルチエージェント3dオブジェクト検出におけるactformerの有効性が示された。
関連論文リスト
- Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - Polybot: Training One Policy Across Robots While Embracing Variability [70.74462430582163]
複数のロボットプラットフォームにデプロイするための単一のポリシーをトレーニングするための重要な設計決定セットを提案する。
われわれのフレームワークは、まず、手首カメラを利用して、我々のポリシーの観察空間と行動空間を具体化して調整する。
6つのタスクと3つのロボットにまたがる60時間以上のデータセットを用いて,関節の形状や大きさの異なるデータセットの評価を行った。
論文 参考訳(メタデータ) (2023-07-07T17:21:16Z) - Tactile-Filter: Interactive Tactile Perception for Part Mating [54.46221808805662]
人間は触覚と触覚に頼っている。
視覚ベースの触覚センサーは、様々なロボット認識や制御タスクに広く利用されている。
本稿では,視覚に基づく触覚センサを用いた対話的知覚手法を提案する。
論文 参考訳(メタデータ) (2023-03-10T16:27:37Z) - Estimation of Appearance and Occupancy Information in Birds Eye View
from Surround Monocular Images [2.69840007334476]
Birds-eye View (BEV)は、トップダウンビューから、エゴ車両フレーム内の異なる交通参加者の位置を表す。
360デグ視野(FOV)をカバーするモノクラーカメラのアレイから、様々な交通参加者の外観や占有情報をキャプチャする新しい表現を提案する。
我々は、すべてのカメラ画像の学習画像埋め込みを使用して、シーンの外観と占有度の両方をキャプチャする瞬間に、シーンのBEVを生成する。
論文 参考訳(メタデータ) (2022-11-08T20:57:56Z) - PACT: Perception-Action Causal Transformer for Autoregressive Robotics
Pre-Training [25.50131893785007]
本研究は,ロボットにおける複数のタスクの出発点として機能する汎用表現を事前学習するためのパラダイムを導入する。
本稿では,ロボットデータから直接表現を自己管理的に構築することを目的として,PACT(Perception-Action Causal Transformer)を提案する。
より大規模な事前学習モデル上に小さなタスク特化ネットワークを微調整すると、同時に1つのモデルをスクラッチからトレーニングするのに比べ、性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-09-22T16:20:17Z) - CoBEVT: Cooperative Bird's Eye View Semantic Segmentation with Sparse
Transformers [36.838065731893735]
CoBEVTは、BEVマップ予測を協調的に生成できる最初の汎用マルチエージェント認識フレームワークである。
CoBEVTは協調的BEVセマンティックセグメンテーションのための最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-05T17:59:28Z) - Look Closer: Bridging Egocentric and Third-Person Views with
Transformers for Robotic Manipulation [15.632809977544907]
視覚フィードバックから精度に基づく操作タスクを解くことは、従来のロボットシステムに必要なエンジニアリング労力を大幅に削減する可能性がある。
ロボットの手首に装着した3人称カメラと自我中心カメラの両方から視覚フィードバックを受けるロボット操作のための設定を提案する。
また,両カメラの視覚情報を効果的に融合するために,クロスビューアテンション機構を備えたトランスフォーマーを提案する。
論文 参考訳(メタデータ) (2022-01-19T18:39:03Z) - CNN-based Omnidirectional Object Detection for HermesBot Autonomous
Delivery Robot with Preliminary Frame Classification [53.56290185900837]
予備的バイナリフレーム分類を用いた物体検出のためのニューラルネットワークの最適化アルゴリズムを提案する。
周囲に6台のローリングシャッターカメラを備えた自律移動ロボットを360度視野として実験装置として使用した。
論文 参考訳(メタデータ) (2021-10-22T15:05:37Z) - Scene Editing as Teleoperation: A Case Study in 6DoF Kit Assembly [18.563562557565483]
遠隔操作によるシーン編集(SEaT)の枠組みを提案する。
ロボットを制御する代わりに、ユーザーはタスクのゴールを指定することに集中する。
ユーザは、ロボットハードウェアの専門知識を必要とせずに遠隔操作を行うことができる。
論文 参考訳(メタデータ) (2021-10-09T04:22:21Z) - One-Shot Object Affordance Detection in the Wild [76.46484684007706]
Affordance Detectionは、画像内のオブジェクトの潜在的なアクション可能性を特定することを指す。
我々は、人間の行動目的を推定し、それを転送して、すべての候補画像から共通価格を検出するワンショットアフォーダンス検出ネットワーク(OSAD-Net)を考案する。
複雑なシーンと豊富なアノテーションによって、当社のPADv2データセットは、アベイランス検出メソッドをベンチマークするためのテストベッドとして使用することができます。
論文 参考訳(メタデータ) (2021-08-08T14:53:10Z) - Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。
しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。
本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。