Fugu-MT 論文翻訳(概要): Using Machine Teaching to Investigate Human Assumptions when Teaching Reinforcement Learners

論文の概要: Using Machine Teaching to Investigate Human Assumptions when Teaching Reinforcement Learners

arxiv url: http://arxiv.org/abs/2009.02476v4
Date: Thu, 29 Jun 2023 04:40:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-30 17:09:28.045027
Title: Using Machine Teaching to Investigate Human Assumptions when Teaching Reinforcement Learners
Title（参考訳）: 機械指導による強化学習者の人的消費調査
Authors: Yun-Shiuan Chuang, Xuezhou Zhang, Yuzhe Ma, Mark K. Ho, Joseph L. Austerweil, Xiaojin Zhu
Abstract要約: 本稿では,一般的な強化学習手法,Q-ラーニングに着目し,行動実験を用いた仮定について検討する。本研究では,学習者の環境をシミュレートし,学習者の内的状態にフィードバックがどう影響するかを予測する深層学習近似手法を提案する。この結果から,評価フィードバックを用いた学習の仕方や,直感的に機械エージェントを設計する方法についてのガイダンスが得られた。
参考スコア（独自算出の注目度）: 26.006964607579004
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Successful teaching requires an assumption of how the learner learns - how the learner uses experiences from the world to update their internal states. We investigate what expectations people have about a learner when they teach them in an online manner using rewards and punishment. We focus on a common reinforcement learning method, Q-learning, and examine what assumptions people have using a behavioral experiment. To do so, we first establish a normative standard, by formulating the problem as a machine teaching optimization problem. To solve the machine teaching optimization problem, we use a deep learning approximation method which simulates learners in the environment and learns to predict how feedback affects the learner's internal states. What do people assume about a learner's learning and discount rates when they teach them an idealized exploration-exploitation task? In a behavioral experiment, we find that people can teach the task to Q-learners in a relatively efficient and effective manner when the learner uses a small value for its discounting rate and a large value for its learning rate. However, they still are suboptimal. We also find that providing people with real-time updates of how possible feedback would affect the Q-learner's internal states weakly helps them teach. Our results reveal how people teach using evaluative feedback and provide guidance for how engineers should design machine agents in a manner that is intuitive for people.
Abstract（参考訳）: 成功する教育には、学習者がどのように学習するか - 学習者が世界から経験を使って内部状態を更新するか - を仮定する必要がある。報奨と罰則を用いて学習者がオンラインで教えるとき、学習者に期待するものについて検討する。我々は,共通強化学習法,q-learningに着目し,行動実験を用いてどのような仮定を持つかを検討する。そこで我々はまず,機械教育最適化問題として問題を定式化し,規範的基準を確立する。機械教育最適化問題を解くために,環境学習者をシミュレートし,フィードバックが学習者の内的状態に与える影響を予測する深層学習近似法を用いる。理想的な探索探索タスクを教えるとき、学習者の学習と割引率についてどう考えるか? 行動実験では,学習者が割引率の小さい値と学習率の大きい値を使用すれば,比較的効率的かつ効果的にQ学習者にタスクを教えることができることがわかった。しかし、それらは依然として準最適である。また、フィードバックがQ-Learnerの内部状態にどのように影響するかをリアルタイムに更新することで、教える上で弱く役立ちます。この結果から,評価フィードバックを用いた学習の仕方や,直感的に機械エージェントを設計する方法についてのガイダンスが得られた。

関連論文リスト

CANDERE-COACH: Reinforcement Learning from Noisy Feedback [12.232688822099325]
CANDERE-COACHアルゴリズムは、非最適教師によるノイズフィードバックから学習することができる。本稿では,教師のフィードバックの最大40%が誤りであった場合,RLエージェントが学習を成功させるためのノイズフィルタリング機構を提案する。
論文参考訳（メタデータ） (2024-09-23T20:14:12Z)
YODA: Teacher-Student Progressive Learning for Language Models [82.0172215948963]
本稿では,教師が指導するプログレッシブ・ラーニング・フレームワークであるYodaを紹介する。モデルファインチューニングの有効性を向上させるために,教師の教育過程をエミュレートする。実験の結果, YODAのデータによるLLaMA2のトレーニングにより, SFTは大幅に向上した。
論文参考訳（メタデータ） (2024-01-28T14:32:15Z)
Utility-based Adaptive Teaching Strategies using Bayesian Theory of Mind [7.754711372795438]
教育戦略を学習者に合わせた教師エージェントを設計するための認知科学を構築している。 ToMを組み込んだ教師は、観察から学習者の内部状態のモデルを構築する。シミュレーション環境での実験では、この方法で教えられた学習者は、学習者に依存しない方法で教えた学習者よりも効率的であることが示されている。
論文参考訳（メタデータ） (2023-09-29T14:27:53Z)
Active Reward Learning from Multiple Teachers [17.10187575303075]
逆学習アルゴリズムは人間のフィードバックを利用して報酬関数を推論し、AIシステムのトレーニングに使用される。この人間のフィードバックはしばしば好みの比較であり、人間の教師はAI行動のいくつかのサンプルを比較し、その目的を最も達成したと考えるものを選択する。報酬学習は通常、すべてのフィードバックは1人の教師から来ると仮定するが、実際には、これらのシステムは複数の教師に十分なトレーニングデータを集めるよう問い合わせることが多い。
論文参考訳（メタデータ） (2023-03-02T01:26:53Z)
Reinforcement Teaching [40.231724440690776]
我々は、機械学習アルゴリズムの学習プロセスを改善するために、強化指導と呼ばれる統一メタ学習フレームワークを開発する。強化指導の下では、生徒の学習アルゴリズムを改善するために、強化を通じて教育方針が学習される。強化指導の汎用性を示すために,教師が強化学習と教師あり学習アルゴリズムの両方を大幅に改善する実験を行った。
論文参考訳（メタデータ） (2022-04-25T18:04:17Z)
Teachable Reinforcement Learning via Advice Distillation [161.43457947665073]
外部教師が提供した構造化アドバイスから学習する「教育可能な」意思決定システムに基づく対話型学習のための新しい指導パラダイムを提案する。我々は、アドバイスから学ぶエージェントが、標準的な強化学習アルゴリズムよりも人的監督力の少ない新しいスキルを習得できることを示す。
論文参考訳（メタデータ） (2022-03-19T03:22:57Z)
Iterative Teacher-Aware Learning [136.05341445369265]
人間の教育において、教師と学生はコミュニケーション効率を最大化するために適応的に交流することができる。本稿では,教師の協調意図を可能性関数に組み込むことができる,勾配最適化に基づく教師認識学習者を提案する。
論文参考訳（メタデータ） (2021-10-01T00:27:47Z)
PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文参考訳（メタデータ） (2021-06-09T14:10:50Z)
Interaction-limited Inverse Reinforcement Learning [50.201765937436654]
本稿では,教師の視点をカバーしたカリキュラム逆強化学習(CIRL)と,学習者の視点に着目した自己適用逆強化学習(SPIRL)の2つの訓練戦略を提案する。シミュレーション実験と実ロボットを用いた実験により,CIRLの無作為教師やSPIRLのバッチ学習者よりも高速な学習が可能であることを示す。
論文参考訳（メタデータ） (2020-07-01T12:31:52Z)
Understanding the Power and Limitations of Teaching with Imperfect Knowledge [30.588367257209388]
本研究では,教師が学習者に対して特定の課題を学習するための学習例を選択する際に,教師と学生/学生の相互作用について検討する。教育における機械教育の現実的な応用に着想を得て,教師の知識が限られ,騒々しい環境を考える。最適学習セットを構築する際に,不完全な知識が対応する機械教育問題に対する教師の解決にどう影響するかを示す。
論文参考訳（メタデータ） (2020-03-21T17:53:26Z)
Explainable Active Learning (XAL): An Empirical Study of How Local Explanations Impact Annotator Experience [76.9910678786031]
本稿では、最近急増している説明可能なAI(XAI)のテクニックをアクティブラーニング環境に導入することにより、説明可能なアクティブラーニング(XAL)の新たなパラダイムを提案する。本研究は,機械教育のインタフェースとしてのAI説明の利点として,信頼度校正を支援し,リッチな形式の教示フィードバックを可能にすること,モデル判断と認知作業負荷による潜在的な欠点を克服する効果を示す。
論文参考訳（メタデータ） (2020-01-24T22:52:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。