論文の概要: Hierarchical Apprenticeship Learning from Imperfect Demonstrations with Evolving Rewards
- arxiv url: http://arxiv.org/abs/2604.00258v1
- Date: Tue, 31 Mar 2026 21:34:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.732107
- Title: Hierarchical Apprenticeship Learning from Imperfect Demonstrations with Evolving Rewards
- Title(参考訳): 進化する後退を伴う不完全な実証から学ぶ階層的認証
- Authors: Md Mirajul Islam, Rajesh Debnath, Adittya Soukarjya Saha, Min Chi,
- Abstract要約: 我々は,不完全な学生デモは捨てるべきノイズではなく,その相対的な品質を仮定した構造化信号がランク付けされると主張している。
HALIDE, Hierarchical Apprenticeship Learning from Imperfect Demonstrations with Evolving Rewardsを紹介する。
その結果, HALIDEは, 最適軌道, 固定報酬, 不正な実演に依存するアプローチよりも, 学生の教育的判断をより正確に予測できることがわかった。
- 参考スコア(独自算出の注目度): 8.858171965804912
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While apprenticeship learning has shown promise for inducing effective pedagogical policies directly from student interactions in e-learning environments, most existing approaches rely on optimal or near-optimal expert demonstrations under a fixed reward. Real-world student interactions, however, are often inherently imperfect and evolving: students explore, make errors, revise strategies, and refine their goals as understanding develops. In this work, we argue that imperfect student demonstrations are not noise to be discarded, but structured signals-provided their relative quality is ranked. We introduce HALIDE, Hierarchical Apprenticeship Learning from Imperfect Demonstrations with Evolving Rewards, which not only leverages sub-optimal student demonstrations, but ranks them within a hierarchical learning framework. HALIDE models student behavior at multiple levels of abstraction, enabling inference of higher-level intent and strategy from suboptimal actions while explicitly capturing the temporal evolution of student reward functions. By integrating demonstration quality into hierarchical reward inference,HALIDE distinguishes transient errors from suboptimal strategies and meaningful progress toward higher-level learning goals. Our results show that HALIDE more accurately predicts student pedagogical decisions than approaches that rely on optimal trajectories, fixed rewards, or unranked imperfect demonstrations.
- Abstract(参考訳): 研修生の学習は、eラーニング環境における生徒の相互作用から直接効果的な教育政策を導くことを約束する一方で、既存のほとんどのアプローチは、固定された報酬の下で最適な、あるいはほぼ最適な専門家のデモンストレーションに依存している。
しかし、現実世界の学生同士の交流は本質的に不完全で進化し、学生は探索し、間違いを犯し、戦略を修正し、理解が進むにつれて目標を洗練する。
本研究では,不完全な学生デモは捨てるべきノイズではなく,その相対的品質を示す構造化信号がランク付けされていることを論じる。
HALIDE, Hierarchical Apprenticeship Learning from Imperfect Demonstrations with Evolving Rewardsを紹介する。
HALIDEは、学生の行動を複数の抽象レベルでモデル化し、生徒の報酬関数の時間的進化を明示的に捉えながら、最適以下の行動から高レベルの意図と戦略を推測することを可能にする。
HALIDEは、実演品質を階層的な報酬推論に組み込むことで、過渡的エラーを最適下方策と区別し、より高いレベルの学習目標に向けて有意義な前進を図っている。
その結果, HALIDEは, 最適軌道, 固定報酬, 不正な実演に依存するアプローチよりも, 学生の教育的判断をより正確に予測できることがわかった。
関連論文リスト
- UCO: A Multi-Turn Interactive Reinforcement Learning Method for Adaptive Teaching with Large Language Models [59.693733170193944]
大規模言語モデル(LLM)は、教育環境において、回答提供者からインテリジェントな家庭教師へとシフトしている。
最近の強化学習アプローチはこの制限に対処するが、2つの重要な課題に直面している。
これらの課題に対処するために一方向認知最適化法(UCO)を提案する。
論文 参考訳(メタデータ) (2025-11-12T01:27:02Z) - Imitation Learning via Focused Satisficing [6.745370992941109]
模倣学習は、いくつかの固定された、しかし未知のコスト関数に従って、デモが最適に近いと仮定する。
提案手法は,既存の模倣学習手法よりも高品質な実演を模倣する政策に焦点を当てていることを実験的に示す。
論文 参考訳(メタデータ) (2025-05-20T18:36:52Z) - Learning to Discern: Imitating Heterogeneous Human Demonstrations with
Preference and Representation Learning [12.4468604987226]
本稿では、様々な品質とスタイルのデモンストレーションから学習するオフラインの模倣学習フレームワークであるL2Dについて紹介する。
本研究では,L2Dが様々な実演から効果的に評価・学習できることを示す。
論文 参考訳(メタデータ) (2023-10-22T06:08:55Z) - Skill Disentanglement for Imitation Learning from Suboptimal
Demonstrations [60.241144377865716]
我々は、小さなクリーンな実演セットと大きなノイズセットの両方で、準最適実演の模倣を考える。
本稿では,様々な品質のアクションプリミティブを異なるスキルに符号化し,サブデモレーションレベルの評価と模倣を行う手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T17:24:37Z) - Unlabeled Imperfect Demonstrations in Adversarial Imitation Learning [48.595574101874575]
現実の世界では、専門家によるデモは不完全である可能性が高い。
正のラベル付き対逆模倣学習アルゴリズムを開発した。
エージェントポリシーは、差別者を騙し、これらの最適な専門家のデモと同様の軌道を生成するように最適化される。
論文 参考訳(メタデータ) (2023-02-13T11:26:44Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Imitation Learning by Estimating Expertise of Demonstrators [92.20185160311036]
実証的知識よりも教師なし学習が模倣学習アルゴリズムの性能を一貫した向上に繋がることを示す。
デモ参加者の学習した方針や専門知識に基づいて,共同モデルを開発・最適化する。
本研究は,ミニグリッドやチェスなど,ロブミミックや離散環境からの実ロボット的連続制御タスクについて述べる。
論文 参考訳(メタデータ) (2022-02-02T21:23:19Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。