論文の概要: InterPReT: Interactive Policy Restructuring and Training Enable Effective Imitation Learning from Laypersons
- arxiv url: http://arxiv.org/abs/2602.04213v1
- Date: Wed, 04 Feb 2026 04:55:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.37603
- Title: InterPReT: Interactive Policy Restructuring and Training Enable Effective Imitation Learning from Laypersons
- Title(参考訳): InterPReT: 対話型政策再構築と学習により, 女性からの効果的な模倣学習を可能にする
- Authors: Feiyu Gavin Zhu, Jean Oh, Reid Simmons,
- Abstract要約: ユーザからの指示でポリシー構造を継続的に更新するInterPReT(Interactive Policy Restructuring and Training)を提案する。
これにより、エンドユーザーは対話的に指示やデモンストレーションを行い、エージェントのパフォーマンスを監視し、エージェントの意思決定戦略をレビューすることができる。
- 参考スコア(独自算出の注目度): 10.214431946148162
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation learning has shown success in many tasks by learning from expert demonstrations. However, most existing work relies on large-scale demonstrations from technical professionals and close monitoring of the training process. These are challenging for a layperson when they want to teach the agent new skills. To lower the barrier of teaching AI agents, we propose Interactive Policy Restructuring and Training (InterPReT), which takes user instructions to continually update the policy structure and optimize its parameters to fit user demonstrations. This enables end-users to interactively give instructions and demonstrations, monitor the agent's performance, and review the agent's decision-making strategies. A user study (N=34) on teaching an AI agent to drive in a racing game confirms that our approach yields more robust policies without impairing system usability, compared to a generic imitation learning baseline, when a layperson is responsible for both giving demonstrations and determining when to stop. This shows that our method is more suitable for end-users without much technical background in machine learning to train a dependable policy
- Abstract(参考訳): 模倣学習は、専門家によるデモンストレーションから学ぶことで多くのタスクで成功している。
しかしながら、既存の作業のほとんどは、技術専門家による大規模なデモンストレーションと、トレーニングプロセスの綿密な監視に依存しています。
これらは、エージェントに新しいスキルを教えたい場合、素人には難しいものです。
AIエージェントの教育障壁を低くするために,ユーザからの指示でポリシー構造を継続的に更新し,パラメータを最適化してユーザデモに適合させるInterPReT(Interactive Policy Restructuring and Training)を提案する。
これにより、エンドユーザーは対話的に指示やデモンストレーションを行い、エージェントのパフォーマンスを監視し、エージェントの意思決定戦略をレビューすることができる。
レースゲームでAIエージェントに運転を教えることに関するユーザスタディ(N=34)は、本手法がシステム使用性を損なうことなくより堅牢なポリシーをもたらすことを確認した。
これは、我々の手法が、信頼性の高いポリシーをトレーニングする機械学習の技術的背景をあまり持たないエンドユーザーに適していることを示している。
関連論文リスト
- RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - A Survey of Demonstration Learning [0.0]
実証学習(Demonstration Learning)は、エージェントがデモンストレーションで示された専門家の行動を模倣してタスクを実行することを学習するパラダイムである。
デモから複雑な振る舞いを学ぶ大きな可能性を秘めているため、大きな注目を集めている。
環境と対話することなく学習することで、デモ学習はロボット工学や医療といった幅広い現実世界の応用を自動化できる。
論文 参考訳(メタデータ) (2023-03-20T15:22:10Z) - Accelerating Self-Imitation Learning from Demonstrations via Policy
Constraints and Q-Ensemble [6.861783783234304]
本稿では,A-SILfDという実演法から学ぶことを提案する。
A-SILfDは専門家のデモンストレーションをエージェントの成功経験として扱い、政策改善を制約するために経験を使用する。
4つのMujoco連続制御タスクにおいて、A-SILfDはオンライントレーニングの15万ステップの後に、ベースラインメソッドを大幅に上回ることができる。
論文 参考訳(メタデータ) (2022-12-07T10:29:13Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Human-in-the-Loop Imitation Learning using Remote Teleoperation [72.2847988686463]
6-DoF操作設定に合わせたデータ収集システムを構築します。
システムによって収集された新しいデータに基づいて,ポリシーを反復的にトレーニングするアルゴリズムを開発した。
介入型システムで収集したデータに基づいて訓練されたエージェントと、非介入型デモ参加者が収集した同等数のサンプルで訓練されたアルゴリズムを上回るエージェントを実証する。
論文 参考訳(メタデータ) (2020-12-12T05:30:35Z) - Rethinking Supervised Learning and Reinforcement Learning in
Task-Oriented Dialogue Systems [58.724629408229205]
本稿では、従来の教師あり学習とシミュレータなしの逆学習法を用いて、最先端のRL法に匹敵する性能を実現する方法を示す。
我々の主な目的は、教師あり学習で強化学習に勝ることではなく、タスク指向対話システムの最適化における強化学習と教師あり学習の役割を再考する価値を示すことである。
論文 参考訳(メタデータ) (2020-09-21T12:04:18Z) - Interactive Imitation Learning in State-Space [5.672132510411464]
状態空間における人間のフィードバックを用いてエージェントの動作を訓練し改善する対話型学習手法を提案する。
「状態空間におけるImitative Policies in State-space(TIPS)」という題名のメソッドは、状態の変化の観点からエージェントにガイダンスを提供することを可能にします。」
論文 参考訳(メタデータ) (2020-08-02T17:23:54Z) - Constrained-Space Optimization and Reinforcement Learning for Complex
Tasks [42.648636742651185]
Demonstrationからの学習は、オペレータ操作スキルをロボットに転送するためにますます利用されている。
本稿では,複雑なタスクを管理するための制約付き空間最適化と強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-04-01T21:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。