Fugu-MT 論文翻訳(概要): Imitation Learning from Suboptimal Demonstrations via Meta-Learning An Action Ranker

論文の概要: Imitation Learning from Suboptimal Demonstrations via Meta-Learning An Action Ranker

arxiv url: http://arxiv.org/abs/2412.20193v1
Date: Sat, 28 Dec 2024 16:06:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-31 22:07:02.514122
Title: Imitation Learning from Suboptimal Demonstrations via Meta-Learning An Action Ranker
Title（参考訳）: メタラーニングによる準最適演示からの模倣学習
Authors: Jiangdong Fan, Hongcai He, Paul Weng, Hui Xu, Jie Shao,
Abstract要約: 模倣学習における大きなボトルネックは、多数の専門家によるデモンストレーションの要求である。メタラーニング・アクション・ローダ(ILMAR)による模倣学習という新しい手法を提案する。 ILMARは、限定された専門家によるデモンストレーションと補足的なデモに重み付けされた行動クローニング(BC)を実装している。
参考スコア（独自算出の注目度）: 9.6508237676589
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A major bottleneck in imitation learning is the requirement of a large number of expert demonstrations, which can be expensive or inaccessible. Learning from supplementary demonstrations without strict quality requirements has emerged as a powerful paradigm to address this challenge. However, previous methods often fail to fully utilize their potential by discarding non-expert data. Our key insight is that even demonstrations that fall outside the expert distribution but outperform the learned policy can enhance policy performance. To utilize this potential, we propose a novel approach named imitation learning via meta-learning an action ranker (ILMAR). ILMAR implements weighted behavior cloning (weighted BC) on a limited set of expert demonstrations along with supplementary demonstrations. It utilizes the functional of the advantage function to selectively integrate knowledge from the supplementary demonstrations. To make more effective use of supplementary demonstrations, we introduce meta-goal in ILMAR to optimize the functional of the advantage function by explicitly minimizing the distance between the current policy and the expert policy. Comprehensive experiments using extensive tasks demonstrate that ILMAR significantly outperforms previous methods in handling suboptimal demonstrations. Code is available at https://github.com/F-GOD6/ILMAR.
Abstract（参考訳）: 模倣学習における大きなボトルネックは、多くの専門家によるデモンストレーションの要求である。厳格な品質要件のない補足的なデモから学ぶことは、この課題に対処するための強力なパラダイムとして現れています。しかし、従来の手法は、非専門的なデータを捨てることによって、その可能性を完全に活用できないことが多い。私たちの重要な洞察は、専門家の配布外にあるデモでも、学習したポリシーを上回り、政策のパフォーマンスを高めることができるということです。この可能性を活用するために,メタラーニング・アクション・ローダ(ILMAR)を用いた模倣学習という新しい手法を提案する。 ILMARは、限定された専門家によるデモンストレーションと補足的なデモに重み付けされた行動クローニング(BC)を実装している。優位関数の機能を利用して、補足的なデモンストレーションから知識を選択的に統合する。補助的な実演をより効果的に活用するために、我々はILMARにメタゴールを導入し、現行方針と専門家方針との距離を明示的に最小化し、有利機能の機能を最適化する。広範囲なタスクを用いた総合的な実験により、ILMARは、最適化されたデモンストレーションの処理において、従来の方法よりも大幅に優れていたことが示される。コードはhttps://github.com/F-GOD6/ILMARで入手できる。

関連論文リスト

Latent Wasserstein Adversarial Imitation Learning [110.12916356445908]
イミテーションラーニング(IL)は、エージェントがデモンストレーションから学ぶことで専門家の行動を模倣することを可能にする。本稿では,新たな逆転模倣学習フレームワークであるLatent Wasserstein Adrial Imitation Learning (LWAIL)を提案する。提案手法は, 従来のワッサーシュタイン型IL法や, 先行した逆IL法よりも優れていることを示す。
論文参考訳（メタデータ） (2026-03-05T18:01:49Z)
SPLASH! Sample-efficient Preference-based inverse reinforcement learning for Long-horizon Adversarial tasks from Suboptimal Hierarchical demonstrations [1.4793622723642046]
逆強化学習(Inverse Reinforcement Learning)は、人間のデモンストレーションから複雑なロボットタスクを学ぶための強力なパラダイムである。我々は,SPLASH(Suboptimal Hierarchical Demos)による長軸適応タスクに対する優先度に基づく逆強化学習を導入する。シミュレーションにおいて,SPLASHを海中捕捉・フラッグタスクで実証的に検証し,自律表面車両におけるシミュレート・トゥ・リアル翻訳実験による実世界の適用性を実証した。
論文参考訳（メタデータ） (2025-07-11T16:05:18Z)
Leveraging In-Context Learning for Language Model Agents [51.2996117207114]
インコンテキスト学習(ICL)と動的に選択されたデモは、大規模言語モデル(LLM)の柔軟性と、トレーニングデータを活用してパフォーマンスを向上させる能力を組み合わせたものだ。実演における類似タスクの軌道選択は, LLMエージェントの性能, 信頼性, 堅牢性, 効率を著しく向上させることを示す。より大規模なモデル(アノテーションフェーズ)から得られた実演により、より小さなモデルも改善され、ICLエージェントはよりコストのかかる訓練されたエージェントと競合する可能性がある。
論文参考訳（メタデータ） (2025-06-16T05:37:49Z)
"Give Me an Example Like This": Episodic Active Reinforcement Learning from Demonstrations [3.637365301757111]
専門家デモ(RLED)からの強化学習(Reinforcement Learning from Expert Demonstrations)のような手法は、学習プロセス中のエージェント探索を促進するために外部の専門家によるデモンストレーションを導入します。学習にとって最も有益な人間のデモのベストセットをどうやって選ぶかが、大きな関心事になります。本稿では,学習エージェントが軌跡に基づく特徴空間において,専門家による実演を最適化したクエリを生成できるアルゴリズムEARLYを提案する。
論文参考訳（メタデータ） (2024-06-05T08:52:21Z)
Inverse-RLignment: Inverse Reinforcement Learning from Demonstrations for LLM Alignment [62.05713042908654]
本稿では,これらの課題を克服するために,高品質な実演データを活用する新しいアプローチであるAlignment from Demonstrations (AfD)を紹介する。 AfDをシーケンシャルな意思決定フレームワークで形式化し、報酬信号の欠如というユニークな課題を強調します。そこで本研究では,AfD に適した報酬モデル上で補間を行う計算効率のよいアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-05-24T15:13:53Z)
AdaDemo: Data-Efficient Demonstration Expansion for Generalist Robotic Agent [75.91274222142079]
本研究では,汎用ロボットエージェントの学習を容易にするために,データ効率のよい方法で実演をスケールアップすることを目的とする。 AdaDemoは、デモデータセットを積極的に継続的に拡張することで、マルチタスクポリシー学習を改善するように設計されたフレームワークである。
論文参考訳（メタデータ） (2024-04-11T01:59:29Z)
Beyond Joint Demonstrations: Personalized Expert Guidance for Efficient Multi-Agent Reinforcement Learning [54.40927310957792]
異種チーム内の各エージェントを個別にカスタマイズした、個人化された専門家によるデモンストレーションという新しい概念を導入する。これらのデモンストレーションは、単独エージェントの行動と、各エージェントが協調的な要素を含まない個人的目標を達成する方法にのみ関係している。本稿では、個人化された専門家によるデモンストレーションをガイダンスとして選択的に活用し、エージェントが協力することを学ぶためのアプローチを提案する。
論文参考訳（メタデータ） (2024-03-13T20:11:20Z)
PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文参考訳（メタデータ） (2023-11-29T02:17:27Z)
Imitator Learning: Achieve Out-of-the-Box Imitation Ability in Variable Environments [45.213059639254475]
我々は、模倣学習(ItorL)と呼ばれる新しいトピックを提案する。これは、非常に限られた専門家のデモンストレーションに基づいて模倣ポリシーを再構築できる模倣モジュールを導出することを目的としている。自律的な模倣ポリシー構築のために、我々は模倣ポリシーのためのデモベースアテンションアーキテクチャを設計する。
論文参考訳（メタデータ） (2023-10-09T13:35:28Z)
Skill Disentanglement for Imitation Learning from Suboptimal Demonstrations [60.241144377865716]
我々は、小さなクリーンな実演セットと大きなノイズセットの両方で、準最適実演の模倣を考える。本稿では,様々な品質のアクションプリミティブを異なるスキルに符号化し,サブデモレーションレベルの評価と模倣を行う手法を提案する。
論文参考訳（メタデータ） (2023-06-13T17:24:37Z)
Robustness of Demonstration-based Learning Under Limited Data Scenario [54.912936555876826]
実証に基づく学習は、限られたデータシナリオ下で事前訓練された言語モデルの能力を刺激する大きな可能性を示している。実演と予測の間に明確な整合性がないため、なぜこのような実演が学習プロセスに有益なのかは不明だ。本稿では,実証に基づくシーケンスラベリングの頑健さを深く掘り下げるために,標準情報から直感的に有用な情報を徐々に取り除き,病理デモを設計する。
論文参考訳（メタデータ） (2022-10-19T16:15:04Z)
Learning from Imperfect Demonstrations from Agents with Varying Dynamics [29.94164262533282]
我々は,実演が模倣学習にどの程度有用かを測定するために,実現可能性スコアと最適度スコアからなる指標を開発した。シミュレーションと実ロボットによる4つの環境実験により,学習方針の改善が期待された。
論文参考訳（メタデータ） (2021-03-10T07:39:38Z)
Learn to Exceed: Stereo Inverse Reinforcement Learning with Concurrent Policy Optimization [1.0965065178451106]
マルコフ決定過程において、専門家による実証を模倣し、性能を向上できる制御ポリシーを得るという課題について検討する。主な関連する1つのアプローチは逆強化学習(IRL)であり、主に専門家によるデモンストレーションから報酬関数を推測することに焦点を当てている。本稿では,新たな報酬と行動方針学習アプローチを通じて,学習エージェントが実証者より優れる新しい手法を提案する。
論文参考訳（メタデータ） (2020-09-21T02:16:21Z)
Reinforcement Learning with Supervision from Noisy Demonstrations [38.00968774243178]
本研究では,環境と協調して対話し,専門家による実演を生かして政策を適応的に学習する新しい枠組みを提案する。複数の人気強化学習アルゴリズムを用いた各種環境における実験結果から,提案手法はノイズの多い実演で頑健に学習可能であることが示された。
論文参考訳（メタデータ） (2020-06-14T06:03:06Z)
Learning Sparse Rewarded Tasks from Sub-Optimal Demonstrations [78.94386823185724]
模倣学習は、既存の専門家のデモンストレーションを活用することで、スパース・リワードされたタスクで効果的に学習する。実際には、十分な量の専門家によるデモンストレーションを集めることは、違法にコストがかかる。限られた数の準最適実演に限り、最適性能を(ほぼ)達成できる自己適応学習(SAIL)を提案する。
論文参考訳（メタデータ） (2020-04-01T15:57:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。