論文の概要: Planning from Observation and Interaction
- arxiv url: http://arxiv.org/abs/2602.24121v1
- Date: Fri, 27 Feb 2026 15:58:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.769736
- Title: Planning from Observation and Interaction
- Title(参考訳): 観察とインタラクションからの計画
- Authors: Tyler Han, Siyang Shen, Rohan Baijal, Harine Ravichandiran, Bat Nemekhbold, Kevin Huang, Sanghun Jung, Byron Boots,
- Abstract要約: 本研究は,実世界のロボット学習において,手作りの報酬や実証的行動へのアクセスが想定されないような設定について検討する。
このデータ制約に対処するため、この研究は、観測と相互作用のみによる世界モデリングのための計画に基づく逆強化学習(IRL)アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 13.498016593786327
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Observational learning requires an agent to learn to perform a task by referencing only observations of the performed task. This work investigates the equivalent setting in real-world robot learning where access to hand-designed rewards and demonstrator actions are not assumed. To address this data-constrained setting, this work presents a planning-based Inverse Reinforcement Learning (IRL) algorithm for world modeling from observation and interaction alone. Experiments conducted entirely in the real-world demonstrate that this paradigm is effective for learning image-based manipulation tasks from scratch in under an hour, without assuming prior knowledge, pre-training, or data of any kind beyond task observations. Moreover, this work demonstrates that the learned world model representation is capable of online transfer learning in the real-world from scratch. In comparison to existing approaches, including IRL, RL, and Behavior Cloning (BC), which have more restrictive assumptions, the proposed approach demonstrates significantly greater sample efficiency and success rates, enabling a practical path forward for online world modeling and planning from observation and interaction. Videos and more at: https://uwrobotlearning.github.io/mpail2/.
- Abstract(参考訳): 観察学習では、エージェントは、実行されたタスクの観察のみを参照してタスクを実行することを学習する必要がある。
本研究は,実世界のロボット学習において,手作りの報酬や実証的行動へのアクセスが想定されないような設定について検討する。
このデータ制約に対処するため、この研究は、観測と相互作用のみによる世界モデリングのための計画に基づく逆強化学習(IRL)アルゴリズムを提案する。
実世界で完全に行われた実験は、このパラダイムが、以前の知識、事前学習、タスク観察以上のデータの仮定をすることなく、1時間以内に画像ベースの操作タスクをスクラッチから学習するのに有効であることを示した。
さらに,本研究は,学習された世界モデル表現が実世界におけるオンライントランスファー学習をスクラッチから行うことができることを示した。
IRL, RL, 行動クローニング(BC)など, より制限的な仮定を持つ既存手法と比較して, 提案手法は, サンプル効率と成功率を大幅に向上し, オンライン世界モデリングと観察と対話からの計画の実践的な道筋をたどることができる。
ビデオなど: https://uwrobotlearning.github.io/mpail2/.com
関連論文リスト
- Latent Action Pretraining Through World Modeling [1.988007188564225]
自己教師型手法で模倣学習モデルを事前学習するためのモデルに依存しないフレームワークであるLAWMを提案する。
当社のフレームワークは,タスクや環境,実施環境の移動に有効であるように設計されています。
論文 参考訳(メタデータ) (2025-09-22T21:19:10Z) - Model Predictive Adversarial Imitation Learning for Planning from Observation [13.427459817316317]
我々はIRLのポリシーを計画に基づくエージェントに置き換える。
本研究は, 試料効率, 分布外一般化, 堅牢性に関する顕著な改善について検討し, 検討した。
論文 参考訳(メタデータ) (2025-07-29T06:52:52Z) - Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Continual Visual Reinforcement Learning with A Life-Long World Model [55.05017177980985]
視覚力学モデリングのための新しい連続学習手法を提案する。
まず,タスク固有の潜在ダイナミクスを学習する長寿命世界モデルを紹介する。
そして,探索・保守的行動学習手法を用いて,過去の課題に対する価値推定問題に対処する。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Practical Imitation Learning in the Real World via Task Consistency Loss [18.827979446629296]
本稿では,機能レベルと行動予測レベルの両方において,シミュレートと実際のアライメントを促進する自己監督的損失を提案する。
我々は、シミュレートとリアルで遠隔操作されたデモンストレーションを16.2時間しか使っていない10のシーンで80%の成功を達成した。
論文 参考訳(メタデータ) (2022-02-03T21:43:06Z) - Model-Based Visual Planning with Self-Supervised Functional Distances [104.83979811803466]
モデルに基づく視覚的目標達成のための自己監視手法を提案する。
私たちのアプローチは、オフラインでラベルなしのデータを使って完全に学習します。
このアプローチは,モデルフリーとモデルベース先行手法の両方で大幅に性能が向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T23:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。