論文の概要: Closed-loop Teaching via Demonstrations to Improve Policy Transparency
- arxiv url: http://arxiv.org/abs/2406.11850v1
- Date: Mon, 1 Apr 2024 14:59:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 07:40:34.618652
- Title: Closed-loop Teaching via Demonstrations to Improve Policy Transparency
- Title(参考訳): 政策透明性向上のためのデモによる閉ループ教育
- Authors: Michael S. Lee, Reid Simmons, Henny Admoni,
- Abstract要約: 本稿では,教育文献の原則にインスパイアされた閉ループ教育フレームワークによるカリキュラムの強化について検討する。
ユーザスタディでは,提案したクローズドループ学習フレームワークにより,人間のテスト応答の後悔度をベースライン上で43%削減できることがわかった。
- 参考スコア(独自算出の注目度): 2.5515055736875016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Demonstrations are a powerful way of increasing the transparency of AI policies. Though informative demonstrations may be selected a priori through the machine teaching paradigm, student learning may deviate from the preselected curriculum in situ. This paper thus explores augmenting a curriculum with a closed-loop teaching framework inspired by principles from the education literature, such as the zone of proximal development and the testing effect. We utilize tests accordingly to close to the loop and maintain a novel particle filter model of human beliefs throughout the learning process, allowing us to provide demonstrations that are targeted to the human's current understanding in real time. A user study finds that our proposed closed-loop teaching framework reduces the regret in human test responses by 43% over a baseline.
- Abstract(参考訳): デモは、AIポリシーの透明性を高める強力な方法です。
情報的なデモンストレーションは、機械教育のパラダイムを通じて先駆者を選ぶことができるが、学生の学習は、選択されたカリキュラムから外される可能性がある。
そこで本稿では, 近近開発ゾーンやテスト効果といった教育文献の原則に着想を得た, 閉ループ教育フレームワークによるカリキュラムの強化について検討する。
本研究は,学習過程を通じて,そのループに近接するテストを利用して,人間の信念の新たな粒子フィルタモデルを維持することで,人間の現在の理解をリアルタイムにターゲットとした実演を行う。
ユーザスタディでは,提案したクローズドループ学習フレームワークにより,人間のテスト応答の後悔度をベースライン上で43%削減できることがわかった。
関連論文リスト
- Text-Aware Diffusion for Policy Learning [8.32790576855495]
本研究では、事前訓練された凍結されたテキスト条件付き拡散モデルを用いて、高密度ゼロショット報酬信号をテキスト整合ポリシー学習に利用する、政策学習用テキスト認識拡散(TADPoLe)を提案する。
TADPoLe は,Humanoid と Dog の両環境において,自然言語によって規定される新たな目標達成と連続的な移動行動の政策を学習可能であることを示す。
論文 参考訳(メタデータ) (2024-07-02T03:08:20Z) - Demonstration Notebook: Finding the Most Suited In-Context Learning Example from Interactions [8.869100154323643]
実験ノート」と呼ばれる新しい物体を中心に構築された新しいプロンプトエンジニアリングワークフローを提案する。
このノートブックは、LLMの過去のインタラクションから情報を収集して再利用することで、質問に対して最も適したコンテキスト内学習例を特定するのに役立つ。
実験により, 提案手法は, 自動的な実演構築と選択において, 既存の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-06-16T10:02:20Z) - Imitation Learning from Purified Demonstrations [47.52316615371601]
本稿では,まず不完全な実演における潜在的な雑音を除去し,その後,これらの実演から模擬学習を行うことを提案する。
提案手法を裏付ける理論的証拠を提示し, 精製された実演と最適実演との距離を有界化できることを実証する。
論文 参考訳(メタデータ) (2023-10-11T02:36:52Z) - Interactively Teaching an Inverse Reinforcement Learner with Limited
Feedback [4.174296652683762]
逐次意思決定課題における実演を通しての授業の課題について検討する。
本研究では,学習過程を限られたフィードバックで形式化し,この問題を解決するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-16T21:12:04Z) - Inverse Dynamics Pretraining Learns Good Representations for Multitask
Imitation [66.86987509942607]
このようなパラダイムを模倣学習でどのように行うべきかを評価する。
本稿では,事前学習コーパスがマルチタスクのデモンストレーションから成り立つ環境について考察する。
逆動力学モデリングはこの設定に適していると主張する。
論文 参考訳(メタデータ) (2023-05-26T14:40:46Z) - Responsible Active Learning via Human-in-the-loop Peer Study [88.01358655203441]
我々は,データプライバシを同時に保持し,モデルの安定性を向上させるために,Pear Study Learning (PSL) と呼ばれる責任あるアクティブラーニング手法を提案する。
まず,クラウドサイドのタスク学習者(教師)から未学習データを分離する。
トレーニング中、タスク学習者は軽量なアクティブ学習者に指示し、アクティブサンプリング基準に対するフィードバックを提供する。
論文 参考訳(メタデータ) (2022-11-24T13:18:27Z) - Leveraging Demonstrations with Latent Space Priors [90.56502305574665]
本稿では,スキル学習とシーケンスモデリングを組み合わせることで,実演データセットを活用することを提案する。
本研究では、国家のみのモーションキャプチャーの実証から、そのような先行情報をどうやって取得するかを示し、政策学習に組み込むためのいくつかの方法を探る。
実験結果から, 学習速度と最終性能において, 遅延空間が顕著に向上することが確認された。
論文 参考訳(メタデータ) (2022-10-26T13:08:46Z) - Contrastive Demonstration Tuning for Pre-trained Language Models [59.90340768724675]
デモの例は、プロンプトチューニングの優れた最終パフォーマンスに不可欠である。
提案手法は次の通りである: (i) 従来の急速学習アプローチにプラグイン; (ii) 多数のカテゴリを持つ広範囲な分類タスクに拡張。
16のデータセットに対する実験結果から,従来のLM-BFFとP-tuningを統合した手法により,性能が向上することが示された。
論文 参考訳(メタデータ) (2022-04-09T05:30:48Z) - Learning by Distillation: A Self-Supervised Learning Framework for
Optical Flow Estimation [71.76008290101214]
DistillFlowは光の流れを学ぶための知識蒸留手法である。
KITTIとSintelの両方のデータセット上で、最先端の教師なし学習性能を実現する。
我々のモデルは、KITTI 2015ベンチマークにおけるすべての単分子的手法の中で、第1位にランクされ、Sintel Finalベンチマークで発表されたすべてのメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-06-08T09:13:34Z) - Shaping Rewards for Reinforcement Learning with Imperfect Demonstrations
using Generative Models [18.195406135434503]
本稿では,報酬関数を状態と行動に依存したポテンシャルに形成することにより,強化と模倣学習を組み合わせた手法を提案する。
このことは,まず探索する価値のある状態空間と行動空間の高価値領域を指定することで,政策学習を加速させることを示す。
特に、これらのポテンシャルを表現するために、正規化フローとジェネレーティブ・アドバイサル・ネットワークの両方について検討する。
論文 参考訳(メタデータ) (2020-11-02T20:32:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。