論文の概要: Learning Active Camera for Multi-Object Navigation
- arxiv url: http://arxiv.org/abs/2210.07505v1
- Date: Fri, 14 Oct 2022 04:17:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 17:45:37.541558
- Title: Learning Active Camera for Multi-Object Navigation
- Title(参考訳): マルチオブジェクトナビゲーションのためのアクティブカメラの学習
- Authors: Peihao Chen, Dongyu Ji, Kunyang Lin, Weiwen Hu, Wenbing Huang, Thomas
H. Li, Mingkui Tan, Chuang Gan
- Abstract要約: ロボットアプリケーションでは、ロボットが複数のオブジェクトに自律的にナビゲートすることが不可欠だが、難しい。
既存のナビゲーション手法は主に固定カメラに焦点を当てており、アクティブカメラでナビゲートする試みはほとんど行われていない。
本稿では,アクティブカメラを用いて,複数の物体へのナビゲーションをより効率的に行うことを検討する。
- 参考スコア(独自算出の注目度): 94.89618442412247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Getting robots to navigate to multiple objects autonomously is essential yet
difficult in robot applications. One of the key challenges is how to explore
environments efficiently with camera sensors only. Existing navigation methods
mainly focus on fixed cameras and few attempts have been made to navigate with
active cameras. As a result, the agent may take a very long time to perceive
the environment due to limited camera scope. In contrast, humans typically gain
a larger field of view by looking around for a better perception of the
environment. How to make robots perceive the environment as efficiently as
humans is a fundamental problem in robotics. In this paper, we consider
navigating to multiple objects more efficiently with active cameras.
Specifically, we cast moving camera to a Markov Decision Process and
reformulate the active camera problem as a reinforcement learning problem.
However, we have to address two new challenges: 1) how to learn a good camera
policy in complex environments and 2) how to coordinate it with the navigation
policy. To address these, we carefully design a reward function to encourage
the agent to explore more areas by moving camera actively. Moreover, we exploit
human experience to infer a rule-based camera action to guide the learning
process. Last, to better coordinate two kinds of policies, the camera policy
takes navigation actions into account when making camera moving decisions.
Experimental results show our camera policy consistently improves the
performance of multi-object navigation over four baselines on two datasets.
- Abstract(参考訳): ロボットアプリケーションでは、ロボットが複数のオブジェクトに自律的にナビゲートすることが不可欠だが、難しい。
重要な課題の1つは、カメラセンサーだけで効率的に環境を探索する方法である。
既存のナビゲーション手法は主に固定カメラに焦点を当てており、アクティブカメラでナビゲートする試みはほとんど行われていない。
その結果、カメラの範囲が限られているため、環境を知覚するのに非常に長い時間がかかる可能性がある。
対照的に、人間は通常、環境をよりよく知覚することで、より大きな視野を得る。
ロボットが人間と同じくらい効率的に環境を知覚する方法は、ロボットの基本的な問題である。
本稿では,アクティブカメラを用いた複数物体への移動をより効率的に行うことを検討する。
具体的には,移動カメラをマルコフ決定プロセスにキャストし,アクティブカメラ問題を強化学習問題として再構成する。
しかし、私たちは2つの新しい課題に対処する必要があります。
1)複雑な環境で良いカメラポリシーを学ぶ方法と方法
2) ナビゲーションポリシーと協調する方法。
これらの問題に対処するために,カメラをアクティブに移動させることにより,エージェントがより多くの領域を探索できるように報酬関数を慎重に設計する。
さらに,人間の経験を活かして,ルールベースのカメラ動作を推測し,学習プロセスを指導する。
最後に、2種類のポリシーをコーディネートするために、カメラの動きを判断する際にナビゲーションアクションを考慮に入れる。
実験の結果,2つのデータセット上の4つのベースライン上でのマルチオブジェクトナビゲーションの性能を一貫して向上させることがわかった。
関連論文リスト
- Commonsense Reasoning for Legged Robot Adaptation with Vision-Language Models [81.55156507635286]
脚のついたロボットは、様々な環境をナビゲートし、幅広い障害を克服することができる。
現在の学習手法は、人間の監督を伴わずに、予期せぬ状況の長い尾への一般化に苦慮することが多い。
本稿では,VLM-Predictive Control (VLM-PC) というシステムを提案する。
論文 参考訳(メタデータ) (2024-07-02T21:00:30Z) - ActFormer: Scalable Collaborative Perception via Active Queries [12.020585564801781]
協調的知覚は、複数のロボットからの豊かな視覚的観察を利用して、単一のロボットの知覚能力を視野を超えて拡張する。
本稿では,鳥の目視(BEV)表現を予め定義されたBEVクエリを用いて学習し,マルチロボットマルチカメラ入力と対話するトランスフォーマーActFormerを提案する。
V2X-Simデータセットの実験では、ActFormerが検出性能を29.89%から45.15%に改善し、約50%のクエリが削減された。
論文 参考訳(メタデータ) (2024-03-08T00:45:18Z) - Polybot: Training One Policy Across Robots While Embracing Variability [70.74462430582163]
複数のロボットプラットフォームにデプロイするための単一のポリシーをトレーニングするための重要な設計決定セットを提案する。
われわれのフレームワークは、まず、手首カメラを利用して、我々のポリシーの観察空間と行動空間を具体化して調整する。
6つのタスクと3つのロボットにまたがる60時間以上のデータセットを用いて,関節の形状や大きさの異なるデータセットの評価を行った。
論文 参考訳(メタデータ) (2023-07-07T17:21:16Z) - HomeRobot: Open-Vocabulary Mobile Manipulation [107.05702777141178]
Open-Vocabulary Mobile Manipulation (OVMM) は、目に見えない環境で任意のオブジェクトを選択し、命令された場所に配置する問題である。
HomeRobotには2つのコンポーネントがある。シミュレーションコンポーネントは、新しい高品質のマルチルームホーム環境に、大規模で多様なキュレートされたオブジェクトセットを使用する。
論文 参考訳(メタデータ) (2023-06-20T14:30:32Z) - Look Closer: Bridging Egocentric and Third-Person Views with
Transformers for Robotic Manipulation [15.632809977544907]
視覚フィードバックから精度に基づく操作タスクを解くことは、従来のロボットシステムに必要なエンジニアリング労力を大幅に削減する可能性がある。
ロボットの手首に装着した3人称カメラと自我中心カメラの両方から視覚フィードバックを受けるロボット操作のための設定を提案する。
また,両カメラの視覚情報を効果的に融合するために,クロスビューアテンション機構を備えたトランスフォーマーを提案する。
論文 参考訳(メタデータ) (2022-01-19T18:39:03Z) - CNN-based Omnidirectional Object Detection for HermesBot Autonomous
Delivery Robot with Preliminary Frame Classification [53.56290185900837]
予備的バイナリフレーム分類を用いた物体検出のためのニューラルネットワークの最適化アルゴリズムを提案する。
周囲に6台のローリングシャッターカメラを備えた自律移動ロボットを360度視野として実験装置として使用した。
論文 参考訳(メタデータ) (2021-10-22T15:05:37Z) - Vision-Based Mobile Robotics Obstacle Avoidance With Deep Reinforcement
Learning [49.04274612323564]
障害物回避は、移動ロボットの自律ナビゲーションのための根本的かつ困難な問題です。
本稿では,ロボットが単一眼カメラにのみ依存しなければならない単純な3D環境における障害物回避の問題を検討する。
データ駆動型エンドツーエンドディープラーニングアプローチとして,障害回避問題に取り組む。
論文 参考訳(メタデータ) (2021-03-08T13:05:46Z) - Mobile Robot Planner with Low-cost Cameras Using Deep Reinforcement
Learning [0.0]
本研究は、深層強化学習に基づくロボットモビリティポリシーを開発する。
ロボットを市場に投入するためには、低コストの大量生産も課題だ。
論文 参考訳(メタデータ) (2020-12-21T07:30:04Z) - Pose-Assisted Multi-Camera Collaboration for Active Object Tracking [42.57706021569103]
アクティブオブジェクト追跡(AOT)は、モバイルロボット、インテリジェント監視など、多くのビジョンベースのアプリケーションに不可欠である。
本稿では,単一カメラのAOTをマルチカメラ環境に拡張し,カメラが目標を協調的に追跡する手法を提案する。
本稿では,カメラが物体追跡のためのカメラのポーズを共有することによって,他者との協調を可能にする,Pose-Assisted Multi-Camera Collaboration Systemを提案する。
論文 参考訳(メタデータ) (2020-01-15T07:49:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。