論文の概要: Conservative Bias in Multi-Teacher Learning: Why Agents Prefer Low-Reward Advisors
- arxiv url: http://arxiv.org/abs/2512.17180v2
- Date: Tue, 23 Dec 2025 06:26:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 13:10:52.730577
- Title: Conservative Bias in Multi-Teacher Learning: Why Agents Prefer Low-Reward Advisors
- Title(参考訳): マルチ教師学習における保守的バイアス : エージェントが低報酬アドバイザーを優先する理由
- Authors: Maher Mesto, Francisco Cruz,
- Abstract要約: 本稿では,対話型強化学習(IRL)における予期せぬ現象を明らかにする。
異なる報酬構造を持つ教師の選択肢が与えられると、学習エージェントは保守的で低報酬の教師を圧倒的に好んでいる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interactive reinforcement learning (IRL) has shown promise in enabling autonomous agents and robots to learn complex behaviours from human teachers, yet the dynamics of teacher selection remain poorly understood. This paper reveals an unexpected phenomenon in IRL: when given a choice between teachers with different reward structures, learning agents overwhelmingly prefer conservative, low-reward teachers (93.16% selection rate) over those offering 20x higher rewards. Through 1,250 experimental runs in navigation tasks with multiple expert teachers, we discovered: (1) Conservative bias dominates teacher selection: agents systematically choose the lowest-reward teacher, prioritising consistency over optimality; (2) Critical performance thresholds exist at teacher availability rho >= 0.6 and accuracy omega >= 0.6, below which the framework fails catastrophically; (3) The framework achieves 159% improvement over baseline Q-learning under concept drift. These findings challenge fundamental assumptions about optimal teaching in RL and suggest potential implications for human-robot collaboration, where human preferences for safety and consistency may align with the observed agent selection behaviour, potentially informing training paradigms for safety-critical robotic applications.
- Abstract(参考訳): 対話型強化学習(IRL)は、自律的なエージェントやロボットが人間の教師から複雑な振る舞いを学べることを約束している。
本論文はIRLにおける予期せぬ現象を明らかにしている:異なる報酬構造を持つ教師の選択肢を与えられた場合、学習エージェントは20倍の報酬を提供する教師よりも保守的で低報酬の教師(93.16%)を圧倒的に好んでいる。
その結果,(1)教師選択における保守的バイアスが担い手の選択に支配的であること,(2)教師のアベイラビリティ・rho >= 0.6 と精度 omega >= 0.6 で重要なパフォーマンス閾値が存在すること,(3)概念的ドリフト下でのベースラインQ-ラーニングよりも159%向上すること,などが判明した。
これらの知見は、RLにおける最適な教育に関する基本的な仮定に挑戦し、安全と一貫性に対する人間の嗜好が観察されたエージェント選択行動と一致し、安全クリティカルなロボットアプリケーションのためのトレーニングパラダイムを示唆する。
関連論文リスト
- More Than One Teacher: Adaptive Multi-Guidance Policy Optimization for Diverse Exploration [103.1589018460702]
ガイダンス・オン・デマンド」アプローチは、自己発見の価値を保ちながら探究を広げる。
実験の結果、AMPOは強いベースラインを大幅に上回ることが示された。
ピアサイズの4人の教師を用いて、より強力な1人の教師を活用できる手法に匹敵する結果が得られる。
論文 参考訳(メタデータ) (2025-10-02T17:14:00Z) - Active teacher selection for reinforcement learning from human feedback [12.823935200868846]
人間のフィードバックからの強化学習(RLHF)により、機械学習システムは人間のフィードバックから目的を学ぶことができる。
教師の合理性、専門性、コストの相違をモデル化するHidden Utility Banditフレームワークを提案する。
我々は、さまざまなソリューションアルゴリズムを開発し、それらを紙レコメンデーションシステムと新型コロナウイルスワクチンテストという2つの現実世界の領域に適用する。
論文 参考訳(メタデータ) (2023-10-23T18:54:43Z) - TGRL: An Algorithm for Teacher Guided Reinforcement Learning [45.38447023752256]
強化と教師の学習目標を最大限にするための政策を訓練することが一般的である。
私たちは、$textitprincipled$アプローチと、$textitdynamically$と$textitautomatically$の近似実装を示します。
論文 参考訳(メタデータ) (2023-07-06T17:58:40Z) - Guarded Policy Optimization with Imperfect Online Demonstrations [32.22880650876471]
Teacher-Student Frameworkは、教師エージェントが学生エージェントのトレーニングをガードする強化学習環境である。
成績の良い教師の政策を得るのは費用がかかるか、あるいは不可能である。
そこで我々は,任意の教師ポリシーを質素あるいは劣悪な性能で組み込む新しい手法を開発した。
論文 参考訳(メタデータ) (2023-03-03T06:24:04Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - Faculty Distillation with Optimal Transport [53.69235109551099]
本稿では,教師の課題と生徒の課題を最適な輸送手段で結びつけることを提案する。
ラベル空間間の意味的関係に基づき、出力分布間の支持ギャップを埋めることができる。
各種条件下での実験は,提案手法の簡潔さと汎用性を示すものである。
論文 参考訳(メタデータ) (2022-04-25T09:34:37Z) - Self-Training with Differentiable Teacher [80.62757989797095]
自己学習は、様々な半教師付きおよび弱教師付き学習タスクで大きな成功を収める。
この手法は、教師が擬似ラベルを生成し、生徒が予測を行う教師学生の枠組みとして解釈できる。
そこで我々は,教師学生をStackelbergゲームとして扱う,差別化可能な自己学習法を提案する。
論文 参考訳(メタデータ) (2021-09-15T02:06:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。