論文の概要: Utility-based Adaptive Teaching Strategies using Bayesian Theory of Mind
- arxiv url: http://arxiv.org/abs/2309.17275v1
- Date: Fri, 29 Sep 2023 14:27:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 13:22:30.965422
- Title: Utility-based Adaptive Teaching Strategies using Bayesian Theory of Mind
- Title(参考訳): ベイズ心の理論を用いた効用に基づく適応的指導戦略
- Authors: Cl\'emence Grislain, Hugo Caselles-Dupr\'e, Olivier Sigaud, Mohamed
Chetouani
- Abstract要約: 教育戦略を学習者に合わせた教師エージェントを設計するための認知科学を構築している。
ToMを組み込んだ教師は、観察から学習者の内部状態のモデルを構築する。
シミュレーション環境での実験では、この方法で教えられた学習者は、学習者に依存しない方法で教えた学習者よりも効率的であることが示されている。
- 参考スコア(独自算出の注目度): 7.754711372795438
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Good teachers always tailor their explanations to the learners. Cognitive
scientists model this process under the rationality principle: teachers try to
maximise the learner's utility while minimising teaching costs. To this end,
human teachers seem to build mental models of the learner's internal state, a
capacity known as Theory of Mind (ToM). Inspired by cognitive science, we build
on Bayesian ToM mechanisms to design teacher agents that, like humans, tailor
their teaching strategies to the learners. Our ToM-equipped teachers construct
models of learners' internal states from observations and leverage them to
select demonstrations that maximise the learners' rewards while minimising
teaching costs. Our experiments in simulated environments demonstrate that
learners taught this way are more efficient than those taught in a
learner-agnostic way. This effect gets stronger when the teacher's model of the
learner better aligns with the actual learner's state, either using a more
accurate prior or after accumulating observations of the learner's behaviour.
This work is a first step towards social machines that teach us and each other,
see https://teacher-with-tom.github.io.
- Abstract(参考訳): よい教師はいつもその説明を学習者に合わせる。
認知科学者はこの過程を合理性原理でモデル化し、教師は教育費を最小化しながら学習者の実用性を最大化しようとする。
この目的のために、人間の教師は学習者の内的状態、すなわち「心の理論」(ToM)と呼ばれる能力の精神モデルを構築しているようである。
認知科学にインスパイアされた私たちは、Bayesian ToMメカニズムを利用して、人間のような教師エージェントを設計し、学習者の指導戦略を調整します。
観察から学習者の内的状態のモデルを構築し,学習者の報酬を最大化しつつ,教育コストを最小化するデモを選定する。
シミュレーション環境における実験により,学習者が学習者非依存の方法で学習者よりも効率的に学習できることが示された。
この効果は、教師の学習者のモデルが実際の学習者の状態とよりよく一致し、より正確な事前または学習者の行動の観察を蓄積した後に使用すると強くなる。
この作業は、私たちとお互いに教えるソーシャルマシンへの第一歩です。 https://teacher-with-tom.github.io.comを参照してください。
関連論文リスト
- YODA: Teacher-Student Progressive Learning for Language Models [82.0172215948963]
本稿では,教師が指導するプログレッシブ・ラーニング・フレームワークであるYodaを紹介する。
モデルファインチューニングの有効性を向上させるために,教師の教育過程をエミュレートする。
実験の結果, YODAのデータによるLLaMA2のトレーニングにより, SFTは大幅に向上した。
論文 参考訳(メタデータ) (2024-01-28T14:32:15Z) - Can Language Models Teach Weaker Agents? Teacher Explanations Improve
Students via Personalization [84.86241161706911]
教師のLLMは、実際に生徒の推論に介入し、パフォーマンスを向上させることができることを示す。
また,マルチターンインタラクションでは,教師による説明が一般化され,説明データから学習されることを示す。
教師のミスアライメントが学生の成績をランダムな確率に低下させることを、意図的に誤解させることで検証する。
論文 参考訳(メタデータ) (2023-06-15T17:27:20Z) - Reinforcement Teaching [43.80089037901853]
本稿では,教師の学習過程を制御するためのメタ学習の枠組みである強化指導を提案する。
学生の学習過程はマルコフ報酬プロセスとしてモデル化され、教師は行動空間でマルコフ決定プロセスと相互作用する。
多くの学習過程において、学習可能なパラメータがマルコフ状態を形成することを示し、教師がパラメータから直接学習することを避けるために、入力・出力動作から生徒の状態の表現を学習する埋め込み器を提案する。
論文 参考訳(メタデータ) (2022-04-25T18:04:17Z) - Iterative Teacher-Aware Learning [136.05341445369265]
人間の教育において、教師と学生はコミュニケーション効率を最大化するために適応的に交流することができる。
本稿では,教師の協調意図を可能性関数に組み込むことができる,勾配最適化に基づく教師認識学習者を提案する。
論文 参考訳(メタデータ) (2021-10-01T00:27:47Z) - Distribution Matching for Machine Teaching [64.39292542263286]
機械学習の逆問題である機械学習は、学習者の目標仮説に向けて学習者を操ることを目的としている。
機械教育に関するこれまでの研究は、それらの最良の指導例を見つけるための教育のリスクとコストのバランスに重点を置いていた。
本稿では,分布マッチングに基づく機械教育戦略を提案する。
論文 参考訳(メタデータ) (2021-05-06T09:32:57Z) - Teaching to Learn: Sequential Teaching of Agents with Inner States [20.556373950863247]
学習者の内的状態が授業の相互作用によって変化するようなマルチエージェントの定式化を導入する。
このような学習者を指導するために,学習者の今後のパフォーマンスを考慮に入れた最適制御手法を提案する。
論文 参考訳(メタデータ) (2020-09-14T07:03:15Z) - Using Machine Teaching to Investigate Human Assumptions when Teaching
Reinforcement Learners [26.006964607579004]
本稿では,一般的な強化学習手法,Q-ラーニングに着目し,行動実験を用いた仮定について検討する。
本研究では,学習者の環境をシミュレートし,学習者の内的状態にフィードバックがどう影響するかを予測する深層学習近似手法を提案する。
この結果から,評価フィードバックを用いた学習の仕方や,直感的に機械エージェントを設計する方法についてのガイダンスが得られた。
論文 参考訳(メタデータ) (2020-09-05T06:32:38Z) - Interaction-limited Inverse Reinforcement Learning [50.201765937436654]
本稿では,教師の視点をカバーしたカリキュラム逆強化学習(CIRL)と,学習者の視点に着目した自己適用逆強化学習(SPIRL)の2つの訓練戦略を提案する。
シミュレーション実験と実ロボットを用いた実験により,CIRLの無作為教師やSPIRLのバッチ学習者よりも高速な学習が可能であることを示す。
論文 参考訳(メタデータ) (2020-07-01T12:31:52Z) - Iterative Machine Teaching without Teachers [12.239246363539634]
既存の反復型機械教育の研究は、すべての指導例の真の答えを知っている教師がいると仮定している。
本研究では,そのような教師が存在しない教師なしの事例について考察する。
生徒は各イテレーションで指導例を与えられるが、対応するラベルが正しいかどうか保証はない。
論文 参考訳(メタデータ) (2020-06-27T11:21:57Z) - Explainable Active Learning (XAL): An Empirical Study of How Local
Explanations Impact Annotator Experience [76.9910678786031]
本稿では、最近急増している説明可能なAI(XAI)のテクニックをアクティブラーニング環境に導入することにより、説明可能なアクティブラーニング(XAL)の新たなパラダイムを提案する。
本研究は,機械教育のインタフェースとしてのAI説明の利点として,信頼度校正を支援し,リッチな形式の教示フィードバックを可能にすること,モデル判断と認知作業負荷による潜在的な欠点を克服する効果を示す。
論文 参考訳(メタデータ) (2020-01-24T22:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。