論文の概要: CAIMAN: Causal Action Influence Detection for Sample-efficient Loco-manipulation
- arxiv url: http://arxiv.org/abs/2502.00835v2
- Date: Mon, 28 Apr 2025 10:57:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 18:43:11.114606
- Title: CAIMAN: Causal Action Influence Detection for Sample-efficient Loco-manipulation
- Title(参考訳): CAIMAN: サンプル効率のロコマニピュレーションのための因果行動影響検出
- Authors: Yuanchen Yuan, Jin Cheng, Núria Armengol Urpí, Stelian Coros,
- Abstract要約: 我々は,ロボットが環境内の他のエンティティを制御できるようにする強化学習フレームワークであるCAIMANを提案する。
シミュレーションにおけるCAIMANの優れたサンプル効率と多様なシナリオへの適応性を実証的に実証した。
- 参考スコア(独自算出の注目度): 17.94272840532448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enabling legged robots to perform non-prehensile loco-manipulation is crucial for enhancing their versatility. Learning behaviors such as whole-body object pushing often requires sophisticated planning strategies or extensive task-specific reward shaping, especially in unstructured environments. In this work, we present CAIMAN, a practical reinforcement learning framework that encourages the agent to gain control over other entities in the environment. CAIMAN leverages causal action influence as an intrinsic motivation objective, allowing legged robots to efficiently acquire object pushing skills even under sparse task rewards. We employ a hierarchical control strategy, combining a low-level locomotion module with a high-level policy that generates task-relevant velocity commands and is trained to maximize the intrinsic reward. To estimate causal action influence, we learn the dynamics of the environment by integrating a kinematic prior with data collected during training.We empirically demonstrate CAIMAN's superior sample efficiency and adaptability to diverse scenarios in simulation, as well as its successful transfer to real-world systems without further fine-tuning.
- Abstract(参考訳): 非包括的ロコ操作を行うための脚付きロボットの導入は、その汎用性を高めるために不可欠である。
全体オブジェクトのプッシュのような学習行動は、特に非構造化環境では、高度な計画戦略や広範囲なタスク固有の報酬形成を必要とすることが多い。
本研究では,エージェントが環境内の他のエンティティを制御できるようにするための,実践的な強化学習フレームワークであるCAIMANを提案する。
CAIMANは、因果行動の影響を本質的な動機づけの目的として活用し、足のついたロボットは、まばらなタスク報酬の下でも、オブジェクトのプッシュスキルを効率的に取得することができる。
我々は,低レベルのロコモーションモジュールとタスク関連速度コマンドを生成する高レベルのポリシーを組み合わせて,本質的な報酬を最大化するために,階層的な制御戦略を採用する。
因果行動の影響を推定するために,トレーニング中に収集したデータとキネマティック先行データを統合することで環境のダイナミクスを学習し,シミュレーションにおける多様なシナリオに対するCAIMANの優れたサンプル効率と適応性を実証的に実証し,さらに微調整をせずに実世界のシステムへの移行に成功したことを実証した。
関連論文リスト
- Action Flow Matching for Continual Robot Learning [57.698553219660376]
ロボット工学における継続的な学習は、変化する環境やタスクに常に適応できるシステムを求める。
本稿では,オンラインロボット力学モデルアライメントのためのフローマッチングを利用した生成フレームワークを提案する。
ロボットは,不整合モデルで探索するのではなく,行動自体を変換することで,より効率的に情報収集を行う。
論文 参考訳(メタデータ) (2025-04-25T16:26:15Z) - Transferable Latent-to-Latent Locomotion Policy for Efficient and Versatile Motion Control of Diverse Legged Robots [9.837559106057814]
Pretrain-and-finetuneパラダイムは、新しいロボットエンティティやタスクに効率的に適応するための、有望なアプローチを提供する。
本稿では,タスク固有の観察エンコーダやアクションデコーダとともに,移動可能な潜時移動ポリシーを事前訓練する潜時学習フレームワークを提案する。
提案手法は広範囲なシミュレーションと実世界の実験により検証され、事前学習された潜伏移動政策が、効率を向上した新しいロボットエンティティやタスクに効果的に一般化できることが実証された。
論文 参考訳(メタデータ) (2025-03-22T03:01:25Z) - Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
私たちは世界モデルを学ぶための新しいフレームワークを紹介します。
スケーラブルで堅牢なフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文 参考訳(メタデータ) (2025-01-17T10:39:09Z) - Adaptive Manipulation using Behavior Trees [12.061325774210392]
本稿では,タスク実行中の視覚的・非視覚的観察にロボットが迅速に適応できる適応行動木を提案する。
産業環境でよく見られる多くのタスクに対して、我々のアプローチを検証します。
論文 参考訳(メタデータ) (2024-06-20T18:01:36Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILe(Reinforced Learning)は、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。
本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - Unsupervised Learning of Effective Actions in Robotics [0.9374652839580183]
ロボット工学における現在の最先端のアクション表現は、ロボットのアクションに対する適切な効果駆動学習を欠いている。
連続運動空間の離散化と「アクションプロトタイプ」生成のための教師なしアルゴリズムを提案する。
シミュレーションされた階段登上補強学習課題について,本手法の評価を行った。
論文 参考訳(メタデータ) (2024-04-03T13:28:52Z) - Tactile Active Inference Reinforcement Learning for Efficient Robotic
Manipulation Skill Acquisition [10.072992621244042]
触覚能動推論強化学習(Tactile Active Inference Reinforcement Learning, Tactile-AIRL)と呼ばれるロボット操作におけるスキル学習手法を提案する。
強化学習(RL)の性能を高めるために,モデルに基づく手法と本質的な好奇心をRLプロセスに統合した能動推論を導入する。
本研究では,タスクをプッシュする非包括的オブジェクトにおいて,学習効率が著しく向上することが実証された。
論文 参考訳(メタデータ) (2023-11-19T10:19:22Z) - Nonprehensile Planar Manipulation through Reinforcement Learning with
Multimodal Categorical Exploration [8.343657309038285]
強化学習はそのようなロボットコントローラを開発するための強力なフレームワークである。
分類分布を用いたマルチモーダル探索手法を提案する。
学習したポリシは外部の障害や観測ノイズに対して堅牢であり、複数のプッシュ器でタスクにスケールできることが示される。
論文 参考訳(メタデータ) (2023-08-04T16:55:00Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - Learning and Adapting Agile Locomotion Skills by Transferring Experience [71.8926510772552]
本稿では,既存のコントローラから新しいタスクを学習するために経験を移譲することで,複雑なロボティクススキルを訓練するためのフレームワークを提案する。
提案手法は,複雑なアジャイルジャンプ行動の学習,後肢を歩いたまま目標地点への移動,新しい環境への適応を可能にする。
論文 参考訳(メタデータ) (2023-04-19T17:37:54Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z) - Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - Active Predicting Coding: Brain-Inspired Reinforcement Learning for
Sparse Reward Robotic Control Problems [79.07468367923619]
ニューラルジェネレーティブ・コーディング(NGC)の神経認知計算フレームワークによるロボット制御へのバックプロパゲーションフリーアプローチを提案する。
我々は、スパース報酬から動的オンライン学習を容易にする強力な予測符号化/処理回路から完全に構築されたエージェントを設計する。
提案するActPCエージェントは,スパース(外部)報酬信号に対して良好に動作し,複数の強力なバックプロップベースのRLアプローチと競合し,性能が優れていることを示す。
論文 参考訳(メタデータ) (2022-09-19T16:49:32Z) - Learning Pneumatic Non-Prehensile Manipulation with a Mobile Blower [30.032847855193864]
管制官は 常に 行動の予期せぬ変化に 適応しなければならない。
本稿では,空間行動マップフレームワークのマルチ周波数バージョンを紹介する。
これにより、高レベルの計画と低レベルのクローズドループ制御を効果的に組み合わせたビジョンベースのポリシーの効率的な学習が可能になる。
論文 参考訳(メタデータ) (2022-04-05T17:55:58Z) - Adversarial Motion Priors Make Good Substitutes for Complex Reward
Functions [124.11520774395748]
強化学習実践者は、身体的にもっともらしい行動を促進する複雑な報酬関数を利用することが多い。
そこで我々は,モーションキャプチャのデモンストレーションデータセットから学習した「スタイル報酬」で複雑な報酬関数を置換する手法を提案する。
学習スタイルの報酬と任意のタスク報酬を組み合わせることで、自然主義戦略を使ってタスクを実行するポリシーを訓練することができる。
論文 参考訳(メタデータ) (2022-03-28T21:17:36Z) - Learning Robotic Manipulation Skills Using an Adaptive Force-Impedance
Action Space [7.116986445066885]
強化学習は、様々な困難な意思決定タスクにおいて、有望な結果をもたらしました。
高速な人間のような適応制御手法は複雑なロボットの相互作用を最適化するが、非構造化タスクに必要なマルチモーダルフィードバックを統合することができない。
本稿では,階層的学習と適応アーキテクチャにおける学習問題を要因として,両世界を最大限に活用することを提案する。
論文 参考訳(メタデータ) (2021-10-19T12:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。