論文の概要: Real-World Reinforcement Learning of Active Perception Behaviors
- arxiv url: http://arxiv.org/abs/2512.01188v1
- Date: Mon, 01 Dec 2025 02:05:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.633009
- Title: Real-World Reinforcement Learning of Active Perception Behaviors
- Title(参考訳): アクティブ知覚行動の実世界強化学習
- Authors: Edward S. Hu, Jie Wang, Xingfang Yuan, Fiona Luo, Muyao Li, Gaspard Lambrechts, Oleh Rybkin, Dinesh Jayaraman,
- Abstract要約: ロボットの瞬時感覚観察は、必ずしもタスク関連状態情報を明らかにするとは限らない。
本稿では,能動的認知ポリシーを効果的に学習するための,シンプルな実世界のロボット学習レシピを提案する。
当社のアプローチは、非対称的なアドバンテージ重み付け回帰であり、トレーニング時に"プライベート"な追加センサーへのアクセスを活用する。
- 参考スコア(独自算出の注目度): 27.56548234738969
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A robot's instantaneous sensory observations do not always reveal task-relevant state information. Under such partial observability, optimal behavior typically involves explicitly acting to gain the missing information. Today's standard robot learning techniques struggle to produce such active perception behaviors. We propose a simple real-world robot learning recipe to efficiently train active perception policies. Our approach, asymmetric advantage weighted regression (AAWR), exploits access to "privileged" extra sensors at training time. The privileged sensors enable training high-quality privileged value functions that aid in estimating the advantage of the target policy. Bootstrapping from a small number of potentially suboptimal demonstrations and an easy-to-obtain coarse policy initialization, AAWR quickly acquires active perception behaviors and boosts task performance. In evaluations on 8 manipulation tasks on 3 robots spanning varying degrees of partial observability, AAWR synthesizes reliable active perception behaviors that outperform all prior approaches. When initialized with a "generalist" robot policy that struggles with active perception tasks, AAWR efficiently generates information-gathering behaviors that allow it to operate under severe partial observability for manipulation tasks. Website: https://penn-pal-lab.github.io/aawr/
- Abstract(参考訳): ロボットの瞬時感覚観察は、必ずしもタスク関連状態情報を明らかにするとは限らない。
このような部分的な可観測性の下では、最適行動は通常、不足する情報を得るために明示的に行動する。
今日の標準的なロボット学習技術は、このような活発な知覚行動を生み出すのに苦労している。
本稿では,能動的認知ポリシーを効果的に学習するための,シンプルな実世界のロボット学習レシピを提案する。
当社のアプローチは、非対称的優位重み付き回帰(AAWR)であり、トレーニング時に「プライベート」な追加センサーへのアクセスを活用する。
特権センサは、目標ポリシーの利点を推定するのに役立つ高品質の特権値関数を訓練することができる。
AAWRは、少数の潜在的に最適でないデモと、粗いポリシーの初期化から切り離され、すぐにアクティブな知覚行動を取得し、タスクパフォーマンスを向上する。
AAWRは、部分観測可能性の異なる3つのロボットにおける8つの操作タスクの評価において、すべての先行したアプローチより優れた信頼性の高い能動知覚挙動を合成する。
アクティブな知覚タスクに苦しむ「ジェネラリスト」ロボットポリシーで初期化されると、AAWRは情報収集動作を効率よく生成し、操作タスクのために深刻な部分的観測性の下で動作させることができる。
ウェブサイト:https://penn-pal-lab.github.io/aawr/
関連論文リスト
- Apple: Toward General Active Perception via Reinforcement Learning [17.92494758004686]
APPLE(Active Perception Policy Learning)は、さまざまなアクティブな知覚問題に対処する新しいフレームワークである。
設計上、APPLEは特定のタスクに限らず、原則として幅広い能動的知覚問題に適用できる。
実験はAPPLEの有効性を示し、回帰タスクと分類タスクの両方で高い精度を達成する。
論文 参考訳(メタデータ) (2025-05-09T16:49:26Z) - Learning from Active Human Involvement through Proxy Value Propagation [44.144964115275]
アクティブな人間の関与から学ぶことで、トレーニング中に人間の被験者が積極的に介入し、AIエージェントに示すことができる。
本稿では,ポリシー最適化のためのプロクシー値伝搬という,報酬のないアクティブな人間関与手法を提案する。
本手法は,グランドセフト自動車Vにおける運転の難易度を含む,多種多様な制御装置による連続的かつ離散的な制御課題の解決を学習することができる。
論文 参考訳(メタデータ) (2025-02-05T17:07:37Z) - Robotic Control via Embodied Chain-of-Thought Reasoning [86.6680905262442]
学習したロボット制御ポリシーの鍵となる制限は、トレーニングデータの外部で一般化できないことである。
視覚言語行動モデル(VLA)に関する最近の研究は、大規模なインターネット事前学習型視覚言語モデルを使用することで、その堅牢性と一般化能力を大幅に向上させることができることを示した。
ロボットの動作を予測する前に、VLAに対して、計画、サブタスク、動作、視覚的接地機能について複数の推論を行うために、VLAに対してEmbodied Chain-of-Thought Reasoning (ECoT)を導入する。
論文 参考訳(メタデータ) (2024-07-11T17:31:01Z) - What Matters to You? Towards Visual Representation Alignment for Robot
Learning [81.30964736676103]
人のために運用する場合、ロボットはエンドユーザーの好みに合わせて報酬を最適化する必要がある。
本稿では、視覚的表現アライメント問題を解決するためのRAPL(Representation-Aligned Preference-based Learning)を提案する。
論文 参考訳(メタデータ) (2023-10-11T23:04:07Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Training Robots to Evaluate Robots: Example-Based Interactive Reward
Functions for Policy Learning [20.565163553170397]
我々は,ロボットにこのような対話的行動を自動的に取得するように訓練することを提案する。
これらの評価は「相互報酬関数」(IRF)として機能する。
IRFは、成功した結果の例のみを使用して、都合よく訓練することができる。
論文 参考訳(メタデータ) (2022-12-17T21:44:03Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。