Fugu-MT 論文翻訳(概要): MoRI: Mixture of RL and IL Experts for Long-Horizon Manipulation Tasks

論文の概要: MoRI: Mixture of RL and IL Experts for Long-Horizon Manipulation Tasks

arxiv url: http://arxiv.org/abs/2604.10165v1
Date: Sat, 11 Apr 2026 11:24:39 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-14 20:13:15.883944
Title: MoRI: Mixture of RL and IL Experts for Long-Horizon Manipulation Tasks
Title（参考訳）: 長軸マニピュレーション作業におけるRLとILエキスパートの混在
Authors: Yaohang Xu, Lianjie Ma, Gewei Zuo, Wentao Zhang, Han Ding, Lijun Zhu,
Abstract要約: Reinforcement Learning (RL) と Imitation Learning (IL) は、操作におけるポリシー獲得の標準フレームワークである。本稿では,RL と IL の専門家 (MoRI) の混合について紹介し,専門家の行動のばらつきに基づいて IL と RL のエキスパートを切り替える。 MoRIは2時間から5時間以内に平均97.5%の成功率を達成する。
参考スコア（独自算出の注目度）: 11.032227085034263
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement Learning (RL) and Imitation Learning (IL) are the standard frameworks for policy acquisition in manipulation. While IL offers efficient policy derivation, it suffers from compounding errors and distribution shift. Conversely, RL facilitates autonomous exploration but is frequently hindered by low sample efficiency and the high cost of trial and error. Since existing hybrid methods often struggle with complex tasks, we introduce Mixture of RL and IL Experts (MoRI). This system dynamically switches between IL and RL experts based on the variance of expert actions to handle coarse movements and fine-grained manipulations. MoRI employs an offline pre-training stage followed by online fine-tuning to accelerate convergence. To maintain exploration safety and minimize human intervention, the system applies IL-based regularization to the RL component. Evaluation across four complex real-world tasks shows that MoRI achieves an average success rate of 97.5% within 2 to 5 hours of fine-tuning. Compared to baseline RL algorithms, MoRI reduces human intervention by 85.8% and shortens convergence time by 21%, demonstrating its capability in robotic manipulation.
Abstract（参考訳）: Reinforcement Learning (RL) と Imitation Learning (IL) は、操作におけるポリシー獲得の標準フレームワークである。 ILは効率的なポリシーの導出を提供するが、複雑なエラーと分散シフトに悩まされる。逆に、RLは自律的な探査を促進するが、低いサンプル効率と高い試行錯誤のコストによってしばしば妨げられる。既存のハイブリッド手法は複雑なタスクにしばしば苦労するため、RLとIL Experts(MoRI)の混合を導入する。このシステムは、粗い動きやきめ細かい操作を扱う専門家行動のばらつきに基づいて、ILとRLのエキスパートを動的に切り替える。 MoRIはオフラインの事前トレーニングステージを採用し、オンラインの微調整によって収束を加速している。調査の安全性を維持し、人間の介入を最小限に抑えるため、システムはILベースの規則化をRLコンポーネントに適用する。 4つの複雑な実世界のタスクに対する評価は、MoRIが2時間から5時間以内に平均97.5%の成功率を達成したことを示している。ベースラインRLアルゴリズムと比較して、MoRIは人間の介入を85.8%削減し、収束時間を21%短縮し、ロボット操作の能力を実証している。

関連論文リスト

Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning [88.42566960813438]
CalibRLは、制御可能な探索と専門家のガイダンスをサポートするハイブリッド政治RLVRフレームワークである。 CalibRLは政策エントロピーを誘導的に増加させ、目標分布を明らかにする。ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークの実験は、一貫した改善を示している。
論文参考訳（メタデータ） (2026-02-22T07:23:36Z)
TwinRL-VLA: Digital Twin-Driven Reinforcement Learning for Real-World Robotic Manipulation [65.45588646626426]
本稿では,VLAモデルのスケールと探索のガイドを目的としたデジタルツインワールド協調RLフレームワークであるTwinRLを提案する。まず、高忠実度デジタルツインをスマートフォンで捉えたシーンから効率的に再構成し、実環境とシミュレートされた環境間の現実的な双方向転送を可能にする。我々の実験では、TwinRLは、実世界の実証と流通域の両方でカバーされた流通域において100%の成功に近づき、従来の実世界のRL法よりも少なくとも30%のスピードアップを実現している。
論文参考訳（メタデータ） (2026-02-09T18:59:52Z)
Real-world Reinforcement Learning from Suboptimal Interventions [39.23110010675281]
SiLRI (SiLRI) は、現実のロボット操作タスクのための州立ラグランジアン強化学習アルゴリズムである。我々のアルゴリズムは,人間間遠隔操作システムに基づいて,多様な操作タスクに関する実世界の実験を通じて評価される。
論文参考訳（メタデータ） (2025-12-30T15:26:42Z)
Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。 Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文参考訳（メタデータ） (2025-10-30T11:53:08Z)
QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs [80.76334908639745]
大規模言語モデル(LLM)のための量子化強化学習フレームワークQeRLを提案する。 QeRLは、NVFP4量子化とローランド適応(LoRA)を組み合わせた問題に対処する。実験によると、QeRLはロールアウトフェーズで1.5倍以上のスピードアップを実現している。
論文参考訳（メタデータ） (2025-10-13T17:55:09Z)
Your Reward Function for RL is Your Best PRM for Search: Unifying RL and Search-Based TTS [62.22644307952087]
本稿では、RLベースと検索ベースTTSの最初の自然統合であるAIRL-Sを紹介する。逆逆強化学習(AIRL)とグループ相対政策最適化(GRPO)を組み合わせることで、正しい推論トレースから高密度な動的PRMを直接学習する。提案手法は,GPT-4oと一致して,ベースモデル上での平均9%の性能向上を図っている。
論文参考訳（メタデータ） (2025-08-19T23:41:15Z)
IN-RIL: Interleaved Reinforcement and Imitation Learning for Policy Fine-Tuning [25.642307880136332]
イミテーションラーニング(IL)と強化ラーニング(RL)はそれぞれ、ロボットポリシーラーニングに明確なアドバンテージを提供する。 IL-based pre-training と RL-based fine-tuning を用いた既存のロボット学習アプローチは有望であるが、この2段階学習パラダイムは、RL 微細チューニングフェーズの不安定性とサンプル効率の低下に悩まされることが多い。本研究では,政策微調整のためのIN-RIL,INterleaved Reinforcement Learning and Imitation Learningを紹介する。
論文参考訳（メタデータ） (2025-05-15T16:01:21Z)
Hybrid Inverse Reinforcement Learning [34.793570631021005]
逆強化学習による模倣学習は両刃剣である。我々は、不要な探索を抑えるために、ハイブリッドRL(オンラインデータとエキスパートデータの混合に関するトレーニング)の使用を提案する。モデルフリーとモデルベースハイブリッド逆RLアルゴリズムの両方を導出し、強力なポリシー性能を保証する。
論文参考訳（メタデータ） (2024-02-13T23:29:09Z)
The Virtues of Pessimism in Inverse Reinforcement Learning [38.98656220917943]
逆強化学習(Inverse Reinforcement Learning)は、専門家によるデモンストレーションから複雑な振る舞いを学ぶための強力なフレームワークである。内ループRLにおける専門家のデモンストレーションを活用することにより、探査負担を軽減することが望ましい。我々は、IRLにおけるRLの高速化のための代替アプローチとして、Emphpessimism、すなわち、オフラインのRLアルゴリズムを用いてインスタンス化された専門家のデータ分布に近づき続けることを考える。
論文参考訳（メタデータ） (2024-02-04T21:22:29Z)
Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。本研究では, MRL の頑健な目標を制御レベルで定義する。ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文参考訳（メタデータ） (2023-01-26T14:54:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。