Fugu-MT 論文翻訳(概要): Conservative Bias in Multi-Teacher Learning: Why Agents Prefer Low-Reward Advisors

論文の概要: Conservative Bias in Multi-Teacher Learning: Why Agents Prefer Low-Reward Advisors

arxiv url: http://arxiv.org/abs/2512.17180v1
Date: Fri, 19 Dec 2025 02:38:04 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-22 19:25:54.221803
Title: Conservative Bias in Multi-Teacher Learning: Why Agents Prefer Low-Reward Advisors
Title（参考訳）: マルチ教師学習における保守的バイアス : エージェントが低報酬アドバイザーを優先する理由
Authors: Maher Mesto, Francisco Cruz,
Abstract要約: 本稿では,対話型強化学習(IRL)における予期せぬ現象を明らかにする。異なる報酬構造を持つ教師の選択肢が与えられると、学習エージェントは保守的で低報酬の教師を圧倒的に好んでいる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Interactive reinforcement learning (IRL) has shown promise in enabling autonomous agents and robots to learn complex behaviours from human teachers, yet the dynamics of teacher selection remain poorly understood. This paper reveals an unexpected phenomenon in IRL: when given a choice between teachers with different reward structures, learning agents overwhelmingly prefer conservative, low-reward teachers (93.16% selection rate) over those offering 20x higher rewards. Through 1,250 experimental runs in navigation tasks with multiple expert teachers, we discovered: (1) Conservative bias dominates teacher selection: agents systematically choose the lowest-reward teacher, prioritising consistency over optimality; (2) Critical performance thresholds exist at teacher availability rho >= 0.6 and accuracy omega >= 0.6, below which the framework fails catastrophically; (3) The framework achieves 159% improvement over baseline Q-learning under concept drift. These findings challenge fundamental assumptions about optimal teaching in RL and suggest potential implications for human-robot collaboration, where human preferences for safety and consistency may align with the observed agent selection behaviour, potentially informing training paradigms for safety-critical robotic applications.
Abstract（参考訳）: 対話型強化学習(IRL)は、自律的なエージェントやロボットが人間の教師から複雑な振る舞いを学べることを約束している。本論文はIRLにおける予期せぬ現象を明らかにしている:異なる報酬構造を持つ教師の選択肢を与えられた場合、学習エージェントは20倍の報酬を提供する教師よりも保守的で低報酬の教師(93.16%)を圧倒的に好んでいる。その結果,(1)教師選択における保守的バイアスが担い手の選択に支配的であること,(2)教師のアベイラビリティ・rho >= 0.6 と精度 omega >= 0.6 で重要なパフォーマンス閾値が存在すること,(3)概念的ドリフト下でのベースラインQ-ラーニングよりも159%向上すること,などが判明した。これらの知見は、RLにおける最適な教育に関する基本的な仮定に挑戦し、安全と一貫性に対する人間の嗜好が観察されたエージェント選択行動と一致し、安全クリティカルなロボットアプリケーションのためのトレーニングパラダイムを示唆する。

関連論文リスト

Which Reasoning Trajectories Teach Students to Reason Better? A Simple Metric of Informative Alignment [82.00769536768509]
Rank-Surprisal Ratioは、推論軌道の適合性を評価するためにアライメントとインフォメーションの両方をキャプチャする単純な計量である。軌道選択と教師選択の両方において,その実用性を実証する。
論文参考訳（メタデータ） (2026-01-20T18:58:10Z)
"The Whole Is Greater Than the Sum of Its Parts": A Compatibility-Aware Multi-Teacher CoT Distillation Framework [16.96094045628127]
CoT(Chain-of-Thought)推論は、大きな言語モデル(LLM)に優れた能力を与えるが、通常は禁止的なパラメータスケールを必要とする。 CoT蒸留は、推論技術をコンパクトな学生モデル(SLM)に伝達するための有望なパラダイムとして登場した。我々は,教師の勾配を動的に重み付けすることで,教師の指導を適応的に融合させるフレームワークCompactを紹介する。
論文参考訳（メタデータ） (2026-01-20T14:05:19Z)
Interactive Distillation for Cooperative Multi-Agent Reinforcement Learning [0.49703640686206074]
HINT (Hierarchical Interactive Teacher-based Transfer) は、MARLのための新しいKDフレームワークである。階層的RLを活用することで、HINTはスケーラブルでハイパフォーマンスな教師を提供する。我々は、挑戦的協力領域におけるHINTの評価(例えば、資源配分のためのFireCommander、戦術戦闘のためのMARINE)。
論文参考訳（メタデータ） (2026-01-08T22:16:43Z)
Hierarchical Pedagogical Oversight: A Multi-Agent Adversarial Framework for Reliable AI Tutoring [0.0]
本稿では,構造化された対人合成を教育評価に適用する枠組みである階層的教育監督(HPO)を紹介する。表面的なコンセンサスに向かって漂う協調的なマルチエージェントシステムとは異なり、HPOは関心事の弁証的分離を強制する。 1,214の中学校数学対話のMRBenchデータセットを用いて,この枠組みを評価する。
論文参考訳（メタデータ） (2025-12-27T06:42:07Z)
More Than One Teacher: Adaptive Multi-Guidance Policy Optimization for Diverse Exploration [103.1589018460702]
ガイダンス・オン・デマンド」アプローチは、自己発見の価値を保ちながら探究を広げる。実験の結果、AMPOは強いベースラインを大幅に上回ることが示された。ピアサイズの4人の教師を用いて、より強力な1人の教師を活用できる手法に匹敵する結果が得られる。
論文参考訳（メタデータ） (2025-10-02T17:14:00Z)
Active teacher selection for reinforcement learning from human feedback [12.823935200868846]
人間のフィードバックからの強化学習(RLHF)により、機械学習システムは人間のフィードバックから目的を学ぶことができる。教師の合理性、専門性、コストの相違をモデル化するHidden Utility Banditフレームワークを提案する。我々は、さまざまなソリューションアルゴリズムを開発し、それらを紙レコメンデーションシステムと新型コロナウイルスワクチンテストという2つの現実世界の領域に適用する。
論文参考訳（メタデータ） (2023-10-23T18:54:43Z)
TGRL: An Algorithm for Teacher Guided Reinforcement Learning [45.38447023752256]
強化と教師の学習目標を最大限にするための政策を訓練することが一般的である。私たちは、$textitprincipled$アプローチと、$textitdynamically$と$textitautomatically$の近似実装を示します。
論文参考訳（メタデータ） (2023-07-06T17:58:40Z)
Guarded Policy Optimization with Imperfect Online Demonstrations [32.22880650876471]
Teacher-Student Frameworkは、教師エージェントが学生エージェントのトレーニングをガードする強化学習環境である。成績の良い教師の政策を得るのは費用がかかるか、あるいは不可能である。そこで我々は,任意の教師ポリシーを質素あるいは劣悪な性能で組み込む新しい手法を開発した。
論文参考訳（メタデータ） (2023-03-03T06:24:04Z)
Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。 DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文参考訳（メタデータ） (2022-06-13T11:52:13Z)
Faculty Distillation with Optimal Transport [53.69235109551099]
本稿では,教師の課題と生徒の課題を最適な輸送手段で結びつけることを提案する。ラベル空間間の意味的関係に基づき、出力分布間の支持ギャップを埋めることができる。各種条件下での実験は,提案手法の簡潔さと汎用性を示すものである。
論文参考訳（メタデータ） (2022-04-25T09:34:37Z)
Self-Training with Differentiable Teacher [80.62757989797095]
自己学習は、様々な半教師付きおよび弱教師付き学習タスクで大きな成功を収める。この手法は、教師が擬似ラベルを生成し、生徒が予測を行う教師学生の枠組みとして解釈できる。そこで我々は,教師学生をStackelbergゲームとして扱う,差別化可能な自己学習法を提案する。
論文参考訳（メタデータ） (2021-09-15T02:06:13Z)
Dual Policy Distillation [58.43610940026261]
教員政策を学生政策に転換する政策蒸留は、深層強化学習の課題において大きな成功を収めた。本研究では,2人の学習者が同じ環境下で活動し,環境の異なる視点を探索する,学生学生による二重政策蒸留(DPD)を導入する。この二重学習フレームワークを開発する上で重要な課題は、同時代の学習に基づく強化学習アルゴリズムにおいて、ピア学習者から有益な知識を特定することである。
論文参考訳（メタデータ） (2020-06-07T06:49:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。