論文の概要: A Closed-Loop Multi-perspective Visual Servoing Approach with
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2312.15809v1
- Date: Mon, 25 Dec 2023 20:46:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 16:34:37.109462
- Title: A Closed-Loop Multi-perspective Visual Servoing Approach with
Reinforcement Learning
- Title(参考訳): 強化学習を用いた閉ループマルチパースペクティブ視覚サーボ方式
- Authors: Lei Zhang, Jiacheng Pei, Kaixin Bai, Zhaopeng Chen, Jianwei Zhang
- Abstract要約: 我々は,新しい学習型多視点視覚サーボフレームワークについて紹介した。
本研究では,異なる視点から初期画像から最適制御ポリシーを学習できることを実証した。
- 参考スコア(独自算出の注目度): 9.152067359388207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional visual servoing methods suffer from serving between scenes from
multiple perspectives, which humans can complete with visual signals alone. In
this paper, we investigated how multi-perspective visual servoing could be
solved under robot-specific constraints, including self-collision, singularity
problems. We presented a novel learning-based multi-perspective visual servoing
framework, which iteratively estimates robot actions from latent space
representations of visual states using reinforcement learning. Furthermore, our
approaches were trained and validated in a Gazebo simulation environment with
connection to OpenAI/Gym. Through simulation experiments, we showed that our
method can successfully learn an optimal control policy given initial images
from different perspectives, and it outperformed the Direct Visual Servoing
algorithm with mean success rate of 97.0%.
- Abstract(参考訳): 従来の視覚サーボ法は、人間が視覚信号だけで完成できる複数の視点からのシーン間のサービスに苦しむ。
本稿では,ロボット特有の制約下でのマルチパースペクティブな視覚サーボ処理の解法について検討した。
強化学習を用いて視覚状態の潜在空間表現からロボット動作を反復的に推定する,新しい学習ベースのマルチパースペクティブ視覚サーボフレームワークを提案する。
さらに,OpenAI/Gymと接続したGazeboシミュレーション環境で,本手法の訓練と検証を行った。
シミュレーション実験により,本手法は異なる視点からの初期画像から最適な制御方針を学習できることを示し,97.0%の平均成功率で直接視覚サーボアルゴリズムを上回った。
関連論文リスト
- View-Invariant Policy Learning via Zero-Shot Novel View Synthesis [26.231630397802785]
本研究では,世界の大規模視覚データから得られる知識が,一般化可能な操作のための一軸の変動にどのように対処できるかを考察する。
本研究では,異なるカメラ視点から同一シーンの画像をレンダリングすることで,シーンレベルの3D認識を学習する単一画像の新規ビュー合成モデルについて検討する。
多様なロボットデータに実用的に応用するには、これらのモデルはゼロショットを動作させ、目に見えないタスクや環境でビュー合成を行う必要がある。
論文 参考訳(メタデータ) (2024-09-05T16:39:21Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。
我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。
ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - Expanding Frozen Vision-Language Models without Retraining: Towards
Improved Robot Perception [0.0]
視覚言語モデル(VLM)は、視覚的質問応答と推論タスクにおいて強力な能力を示している。
本稿では,異なるモダリティの埋め込み空間を視覚埋め込み空間に整列させる手法を示す。
複数モードを入力として使用すると、VLMのシーン理解が向上し、様々なタスクにおける全体的なパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-08-31T06:53:55Z) - VIBR: Learning View-Invariant Value Functions for Robust Visual Control [3.2307366446033945]
VIBR (View-Invariant Bellman Residuals) は、マルチビュートレーニングと不変予測を組み合わせて、RLベースのビジュモータ制御における分配ギャップを削減する手法である。
視覚摂動の高い複雑なビジュオモータ制御環境において,VIBRは既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-14T14:37:34Z) - Visual Affordance Prediction for Guiding Robot Exploration [56.17795036091848]
我々は,ロボット探索を導くための視覚能力の学習手法を開発した。
VQ-VAEの潜伏埋め込み空間における条件分布の学習にはTransformerベースのモデルを用いる。
本稿では,ロボット操作における視覚的目標条件付きポリシー学習において,目標サンプリング分布として機能することで探索を導くために,トレーニングされた余裕モデルをどのように利用できるかを示す。
論文 参考訳(メタデータ) (2023-05-28T17:53:09Z) - Self-Supervised Learning of Multi-Object Keypoints for Robotic
Manipulation [8.939008609565368]
本稿では,下流政策学習におけるDense Cor correspondence pretext Taskによる画像キーポイントの学習の有効性を示す。
我々は,多様なロボット操作タスクに対するアプローチを評価し,他の視覚表現学習手法と比較し,その柔軟性と有効性を示した。
論文 参考訳(メタデータ) (2022-05-17T13:15:07Z) - Multi-View Dreaming: Multi-View World Model with Contrastive Learning [11.259786293913606]
マルチビュー・ドリーミング(Multi-View Dreaming)は、マルチビュー観測から認識と制御を統合化するための新しい強化学習エージェントである。
本稿では、コントラスト学習を用いて、異なる視点間で共有潜在空間を学習する。
また,多視点ドリーミングの変種であるMulti-View DreamingV2を提案する。
論文 参考訳(メタデータ) (2022-03-15T02:33:31Z) - Learning Perceptual Locomotion on Uneven Terrains using Sparse Visual
Observations [75.60524561611008]
この研究は、人中心の環境において、よく見られるバンプ、ランプ、階段の広い範囲にわたる知覚的移動を達成するために、スパースな視覚的観察の使用を活用することを目的としている。
まず、関心の均一な面を表すことのできる最小限の視覚入力を定式化し、このような外受容的・固有受容的データを統合した学習フレームワークを提案する。
本研究では, 平地を全方向歩行し, 障害物のある地形を前方移動させるタスクにおいて, 学習方針を検証し, 高い成功率を示す。
論文 参考訳(メタデータ) (2021-09-28T20:25:10Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z) - Model-Based Visual Planning with Self-Supervised Functional Distances [104.83979811803466]
モデルに基づく視覚的目標達成のための自己監視手法を提案する。
私たちのアプローチは、オフラインでラベルなしのデータを使って完全に学習します。
このアプローチは,モデルフリーとモデルベース先行手法の両方で大幅に性能が向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T23:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。