論文の概要: Emergent Active Perception and Dexterity of Simulated Humanoids from Visual Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.12278v1
- Date: Sun, 18 May 2025 07:33:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.137671
- Title: Emergent Active Perception and Dexterity of Simulated Humanoids from Visual Reinforcement Learning
- Title(参考訳): 視覚強化学習による擬似ヒューマノイドの創発的能動知覚とデキスタリティ
- Authors: Zhengyi Luo, Chen Tessler, Toru Lin, Ye Yuan, Tairan He, Wenli Xiao, Yunrong Guo, Gal Chechik, Kris Kitani, Linxi Fan, Yuke Zhu,
- Abstract要約: 本稿では,擬似ヒューマノイドを用いた視覚駆動全身制御フレームワークであるPerceptive Dexterous Control (PDC)を紹介する。
PDCは、タスク仕様のためのエゴセントリックなビジョンのみを運用し、ビジュアルキューによるオブジェクト検索、ターゲット配置、スキル選択を可能にする。
強化学習によるスクラッチからのトレーニングは,能動探索などの創発的な行動を引き起こす可能性があることを示す。
- 参考スコア(独自算出の注目度): 69.71072181304066
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Human behavior is fundamentally shaped by visual perception -- our ability to interact with the world depends on actively gathering relevant information and adapting our movements accordingly. Behaviors like searching for objects, reaching, and hand-eye coordination naturally emerge from the structure of our sensory system. Inspired by these principles, we introduce Perceptive Dexterous Control (PDC), a framework for vision-driven dexterous whole-body control with simulated humanoids. PDC operates solely on egocentric vision for task specification, enabling object search, target placement, and skill selection through visual cues, without relying on privileged state information (e.g., 3D object positions and geometries). This perception-as-interface paradigm enables learning a single policy to perform multiple household tasks, including reaching, grasping, placing, and articulated object manipulation. We also show that training from scratch with reinforcement learning can produce emergent behaviors such as active search. These results demonstrate how vision-driven control and complex tasks induce human-like behaviors and can serve as the key ingredients in closing the perception-action loop for animation, robotics, and embodied AI.
- Abstract(参考訳): 私たちの世界と対話する能力は、積極的に関連する情報を収集し、それに応じて動きを適応させることに依存します。
物体の探索、到達、目の動きの調整といった行動は、感覚システムの構造から自然に現れます。
これらの原理に触発されて,擬似ヒューマノイドを用いた視覚駆動型全身制御フレームワークPerceptive Dexterous Control (PDC)を導入した。
PDCは、タスク仕様のためのエゴセントリックなビジョンのみを運用し、特権状態情報(例えば、3Dオブジェクトの位置やジオメトリ)に頼ることなく、視覚的手がかりを通じてオブジェクト検索、ターゲット配置、スキル選択を可能にする。
この知覚・インタフェースのパラダイムは、単一のポリシーを学習して、到達、把握、配置、調音されたオブジェクト操作を含む複数の家庭用タスクを実行できる。
また,強化学習によるスクラッチからのトレーニングは,能動探索などの創発的な行動を引き起こすことを示す。
これらの結果は、視覚駆動制御と複雑なタスクが人間のような振る舞いを誘発し、アニメーション、ロボティクス、そして具体化されたAIの知覚行動ループを閉じる上で重要な要素となることを示す。
関連論文リスト
- Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。
コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - The Power of the Senses: Generalizable Manipulation from Vision and
Touch through Masked Multimodal Learning [60.91637862768949]
強化学習環境における視覚的・触覚的情報を融合するためのマスク付きマルチモーダル学習(M3L)を提案する。
M3Lは、マスク付きオートエンコーディングに基づいて、ポリシーと視覚触覚表現を学習する。
視覚と触覚の両方の観察を行い、3つの模擬環境におけるM3Lの評価を行った。
論文 参考訳(メタデータ) (2023-11-02T01:33:00Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - Capturing the objects of vision with neural networks [0.0]
人間の視覚知覚はその物理的関節でシーンを彫り、世界をオブジェクトに分解する。
対照的に、視覚物体認識のディープニューラルネットワーク(DNN)モデルは、主に感覚入力と結びついている。
両分野の関連研究をレビューし、これらの分野が相互にどのように役立つかを検討する。
論文 参考訳(メタデータ) (2021-09-07T21:49:53Z) - Learning Visually Guided Latent Actions for Assistive Teleoperation [9.75385535829762]
視覚入力に潜伏埋め込みを条件とした補助ロボットを開発。
少量の安価で収集しやすい構造データに予め訓練されたオブジェクト検出器を組み込むことにより、i)現在のコンテキストを正確に認識し、ii)新しいオブジェクトやタスクへの制御埋め込みを一般化する。
論文 参考訳(メタデータ) (2021-05-02T23:58:28Z) - Generalization Through Hand-Eye Coordination: An Action Space for
Learning Spatially-Invariant Visuomotor Control [67.23580984118479]
模倣学習(il)は、オフラインデモデータから視覚能力を学ぶための効果的なフレームワークである。
手目行動ネットワーク(HAN)は、人間の遠隔操作による実証から学習することにより、人間の手目協調行動を推定することができる。
論文 参考訳(メタデータ) (2021-02-28T01:49:13Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - Active Perception and Representation for Robotic Manipulation [0.8315801422499861]
本稿では、能動的知覚の利点を利用して操作タスクを遂行するフレームワークを提案する。
我々のエージェントは、視点変化を利用してオブジェクトをローカライズし、状態表現を自己監督的に学習し、ゴール指向のアクションを実行する。
バニラ深度Q-ラーニングアルゴリズムと比較して、我々のモデルは少なくとも4倍のサンプリング効率がある。
論文 参考訳(メタデータ) (2020-03-15T01:43:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。