論文の概要: X-IL: Exploring the Design Space of Imitation Learning Policies
- arxiv url: http://arxiv.org/abs/2502.12330v1
- Date: Mon, 17 Feb 2025 21:33:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:05:49.705851
- Title: X-IL: Exploring the Design Space of Imitation Learning Policies
- Title(参考訳): X-IL:Imitation Learning Policiesの設計空間を探る
- Authors: Xiaogang Jia, Atalay Donat, Xi Huang, Xuan Zhao, Denis Blessing, Hongyi Zhou, Hanyi Zhang, Han A. Wang, Qian Wang, Rudolf Lioutikov, Gerhard Neumann,
- Abstract要約: 我々は、模倣学習ポリシーのための広大なデザイン空間を探求するために設計されたオープンソースのフレームワークであるX-ILを紹介する。
このフレームワークのモジュラー設計は、バックボーン(Transformer、Mamba、xLSTMなど)やポリシー最適化技術などのポリシーコンポーネントのシームレスなスワップを可能にする。
本研究は,実践者の実践的参考と,模倣学習における今後の研究を導くための基盤としての役割を担っている。
- 参考スコア(独自算出の注目度): 20.770730972159242
- License:
- Abstract: Designing modern imitation learning (IL) policies requires making numerous decisions, including the selection of feature encoding, architecture, policy representation, and more. As the field rapidly advances, the range of available options continues to grow, creating a vast and largely unexplored design space for IL policies. In this work, we present X-IL, an accessible open-source framework designed to systematically explore this design space. The framework's modular design enables seamless swapping of policy components, such as backbones (e.g., Transformer, Mamba, xLSTM) and policy optimization techniques (e.g., Score-matching, Flow-matching). This flexibility facilitates comprehensive experimentation and has led to the discovery of novel policy configurations that outperform existing methods on recent robot learning benchmarks. Our experiments demonstrate not only significant performance gains but also provide valuable insights into the strengths and weaknesses of various design choices. This study serves as both a practical reference for practitioners and a foundation for guiding future research in imitation learning.
- Abstract(参考訳): モダンな模倣学習(IL)ポリシーの設計には、特徴符号化、アーキテクチャ、ポリシー表現など、数多くの決定が必要である。
この分野が急速に進展するにつれて、利用可能なオプションの範囲は拡大し続けており、ILポリシーのための広大な、そして、ほとんど探索されていない設計空間を形成している。
本稿では,この設計空間を体系的に探索する目的で設計された,アクセス可能なオープンソースフレームワークであるX-ILを紹介する。
このフレームワークのモジュール設計は、バックボーン(例えば、Transformer、Mamba、xLSTM)やポリシー最適化(例えば、スコアマッチング、フローマッチング)といったポリシーコンポーネントのシームレスな交換を可能にする。
この柔軟性は、包括的な実験を促進するとともに、最近のロボット学習ベンチマークにおける既存の手法よりも優れた、新しいポリシー構成の発見につながった。
我々の実験は、重要なパフォーマンス向上を示すだけでなく、様々な設計選択の強みと弱みに関する貴重な洞察を提供する。
本研究は,実践者への実践的参考と,模倣学習における今後の研究を導くための基盤としての役割を担っている。
関連論文リスト
- A Survey of Sim-to-Real Methods in RL: Progress, Prospects and Challenges with Foundation Models [7.936554266939555]
Deep Reinforcement Learning (RL) は意思決定タスクの解決に有効であることが検討され、検証されている。
しかし, 実世界のデータに制限があり, 有害な行動が生じたため, RLポリシーの学習は主にシミュレータ内で制限される。
本論文はマルコフ決定過程の重要な要素からシム・トゥ・リアルの技法を正式に定式化した最初の分類法である。
論文 参考訳(メタデータ) (2025-02-18T12:57:29Z) - Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。
本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Hierarchical Reinforcement Learning for Temporal Abstraction of Listwise Recommendation [51.06031200728449]
我々はmccHRLと呼ばれる新しいフレームワークを提案し、リストワイドレコメンデーションにおける時間的抽象化のレベルを異なるものにする。
階層的な枠組みの中では、ハイレベルエージェントがユーザ知覚の進化を研究し、低レベルエージェントがアイテム選択ポリシーを作成している。
その結果,本手法による性能改善は,いくつかのよく知られたベースラインと比較して有意な結果が得られた。
論文 参考訳(メタデータ) (2024-09-11T17:01:06Z) - Towards a Unified View of Preference Learning for Large Language Models: A Survey [88.66719962576005]
大きな言語モデル(LLM)は、非常に強力な能力を示す。
成功するための重要な要因の1つは、LLMの出力を人間の好みに合わせることである。
選好学習のすべての戦略を、モデル、データ、フィードバック、アルゴリズムの4つの構成要素に分解する。
論文 参考訳(メタデータ) (2024-09-04T15:11:55Z) - Dynamic and Adaptive Feature Generation with LLM [10.142660254703225]
本稿では,特徴生成プロセスの解釈可能性を高める動的かつ適応的な特徴生成手法を提案する。
弊社のアプローチは、さまざまなデータタイプやタスクに適用可能性を広げ、戦略的柔軟性よりも優位性を引き出す。
論文 参考訳(メタデータ) (2024-06-04T20:32:14Z) - Human as Points: Explicit Point-based 3D Human Reconstruction from Single-view RGB Images [71.91424164693422]
我々はHaPと呼ばれる明示的なポイントベース人間再構築フレームワークを導入する。
提案手法は,3次元幾何学空間における完全明示的な点雲推定,操作,生成,洗練が特徴である。
我々の結果は、完全に明示的で幾何学中心のアルゴリズム設計へのパラダイムのロールバックを示すかもしれない。
論文 参考訳(メタデータ) (2023-11-06T05:52:29Z) - Policy Architectures for Compositional Generalization in Control [71.61675703776628]
本稿では,タスクにおけるエンティティベースの構成構造をモデル化するためのフレームワークを提案する。
私たちのポリシーは柔軟で、アクションプリミティブを必要とせずにエンドツーエンドでトレーニングできます。
論文 参考訳(メタデータ) (2022-03-10T06:44:24Z) - Policy-Based Bayesian Experimental Design for Non-Differentiable
Implicit Models [25.00242490764664]
深層適応設計のための強化学習(Reinforcement Learning for Deep Adaptive Design, RL-DAD)は、非微分不可能な暗黙モデルに対するシミュレーションに基づく最適実験設計手法である。
RL-DADは、事前履歴をオフラインで実験するためにマッピングし、オンライン実行中に素早くデプロイできる。
論文 参考訳(メタデータ) (2022-03-08T18:47:01Z) - Assessing Policy, Loss and Planning Combinations in Reinforcement
Learning using a New Modular Architecture [0.0]
モデルベース強化学習エージェントに適した新しいモジュール型ソフトウェアアーキテクチャを提案する。
計画アルゴリズム,ポリシー,損失関数の最適組み合わせは問題に大きく依存していることが示される。
論文 参考訳(メタデータ) (2022-01-08T18:30:25Z) - Attention Option-Critic [56.50123642237106]
本稿では,オプション批判フレームワークへの注意に基づく拡張を提案する。
これは、状態抽象化も可能な振る舞いに多様な選択肢をもたらすことを示す。
また、学習した選択肢のより効率的で、解釈可能で、再利用可能な性質を、オプション批判と比較して示す。
論文 参考訳(メタデータ) (2022-01-07T18:44:28Z) - Context-Specific Representation Abstraction for Deep Option Learning [43.68681795014662]
我々は、Deep Option Learning(CRADOL)のためのコンテキスト特化表現抽象化を導入する。
CRADOLは、時間的抽象化とコンテキスト固有の表現抽象化の両方を考慮し、ポリシー空間上の検索のサイズを効果的に削減する新しいフレームワークである。
具体的には、各オプションが状態空間のサブセクションのみを越えてポリシーを学習することのできる、ファクタードな信念状態表現を学習する。
論文 参考訳(メタデータ) (2021-09-20T22:50:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。