論文の概要: Distilling Realizable Students from Unrealizable Teachers
- arxiv url: http://arxiv.org/abs/2505.09546v1
- Date: Wed, 14 May 2025 16:45:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.534252
- Title: Distilling Realizable Students from Unrealizable Teachers
- Title(参考訳): 実現不可能な教師から実感できる学生を蒸留する
- Authors: Yujin Kim, Nathaniel Chin, Arnav Vasudev, Sanjiban Choudhury,
- Abstract要約: 特権情報に基づく政策蒸留について検討し, 一部観察のみの学生政策は, フルステートアクセスの教師から学ぶ必要がある。
既存のアプローチでは、教師が実現可能ではあるが準最適のデモを作成するように変更するか、または学生に頼って、欠落した情報を独立して調査する。
i) 学生が教師に補正を問い合わせるべき時期を適応的に決定する模倣学習手法と, (ii) 効率的な探索のためにトレーニングを初期化する場所を選択する強化学習手法を導入する。
- 参考スコア(独自算出の注目度): 9.968083244726941
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We study policy distillation under privileged information, where a student policy with only partial observations must learn from a teacher with full-state access. A key challenge is information asymmetry: the student cannot directly access the teacher's state space, leading to distributional shifts and policy degradation. Existing approaches either modify the teacher to produce realizable but sub-optimal demonstrations or rely on the student to explore missing information independently, both of which are inefficient. Our key insight is that the student should strategically interact with the teacher --querying only when necessary and resetting from recovery states --to stay on a recoverable path within its own observation space. We introduce two methods: (i) an imitation learning approach that adaptively determines when the student should query the teacher for corrections, and (ii) a reinforcement learning approach that selects where to initialize training for efficient exploration. We validate our methods in both simulated and real-world robotic tasks, demonstrating significant improvements over standard teacher-student baselines in training efficiency and final performance. The project website is available at : https://portal-cornell.github.io/CritiQ_ReTRy/
- Abstract(参考訳): 特権情報に基づく政策蒸留について検討し, 一部観察のみの学生政策は, フルステートアクセスの教師から学ぶ必要がある。
鍵となる課題は情報非対称性であり、生徒は教師の状態空間に直接アクセスできず、分散シフトと政策劣化につながる。
既存のアプローチでは、教師が実現可能ではあるが準最適のデモを作成するように変更するか、または学生に頼って行方不明の情報を調べるかのいずれかであり、どちらも非効率である。
私たちの重要な洞察は、学生が教師と戦略的に交流し、必要なときにのみクエリを行い、回復状態からリセットし、自身の観察空間内の回復可能な経路に留まるべきであるということです。
2つの方法を紹介します。
一 学生が教師に校正を求めるべき時期を適応的に決定する模倣学習方法
(II)効率的な探究のための訓練の開始場所を選択する強化学習手法。
シミュレーションと実世界のロボティクスの両タスクにおいて,本手法の有効性を検証し,学習効率と最終性能の標準的な教師学生ベースラインよりも大幅に向上したことを示す。
プロジェクトのWebサイトは、https://portal-cornell.github.io/CritiQ_ReTRy/で公開されている。
関連論文リスト
- Toward In-Context Teaching: Adapting Examples to Students' Misconceptions [54.82965010592045]
本稿ではAdapTと呼ばれる一連のモデルと評価手法を紹介する。
AToMは、学生の過去の信念を共同で推論し、将来の信念の正しさを最適化する適応教育の新しい確率論的モデルである。
本研究は,適応型学習課題の難しさと,それを解決するための学習適応モデルの可能性を両立させるものである。
論文 参考訳(メタデータ) (2024-05-07T17:05:27Z) - Learn to Teach: Sample-Efficient Privileged Learning for Humanoid Locomotion over Diverse Terrains [6.967583364984562]
本研究は,教師と学生の政策学習を統合したワンステージ・トレーニング・フレームワーク,Learn to Teach (L2T)を提案する。
提案手法は, サンプルをリサイクルし, 共有力学を用いて学習軌跡を同期させ, サンプルの複雑さと学習時間を著しく低減する。
深度推定モジュールを使わずに12以上の困難な地形上で, ゼロショットのシミュレートとロバストな性能を実証し, シミュレーションとハードウェアテストによりRL変種(L2T-RL)を検証した。
論文 参考訳(メタデータ) (2024-02-09T21:16:43Z) - DriveAdapter: Breaking the Coupling Barrier of Perception and Planning
in End-to-End Autonomous Driving [64.57963116462757]
最先端の手法は通常、教師-学生のパラダイムに従う。
学生モデルは、生のセンサーデータのみにアクセスし、教師モデルによって収集されたデータに基づいて行動クローニングを行う。
本稿では,学生(知覚)と教師(計画)モジュール間の機能アライメント目的関数を持つアダプタを用いたDriveAdapterを提案する。
論文 参考訳(メタデータ) (2023-08-01T09:21:53Z) - Can Language Models Teach Weaker Agents? Teacher Explanations Improve
Students via Personalization [84.86241161706911]
教師のLLMは、実際に生徒の推論に介入し、パフォーマンスを向上させることができることを示す。
また,マルチターンインタラクションでは,教師による説明が一般化され,説明データから学習されることを示す。
教師のミスアライメントが学生の成績をランダムな確率に低下させることを、意図的に誤解させることで検証する。
論文 参考訳(メタデータ) (2023-06-15T17:27:20Z) - Random Teachers are Good Teachers [19.74244993871716]
自己蒸留における教師-学生の学習力学によって引き起こされる暗黙の正規化について検討する。
このような無作為な教師に学生を蒸留する際には,その教師に対して高い精度で蒸留した生徒の強い改善を観察する。
論文 参考訳(メタデータ) (2023-02-23T15:26:08Z) - Distantly-Supervised Named Entity Recognition with Adaptive Teacher
Learning and Fine-grained Student Ensemble [56.705249154629264]
NERモデルの堅牢性を改善するために,自己学習型教員学生フレームワークを提案する。
本稿では,2つの教員ネットワークからなる適応型教員学習を提案する。
微粒な学生アンサンブルは、教師モデルの各フラグメントを、生徒の対応するフラグメントの時間移動平均で更新し、各モデルフラグメントのノイズに対する一貫した予測を強化する。
論文 参考訳(メタデータ) (2022-12-13T12:14:09Z) - Teaching What You Should Teach: A Data-Based Distillation Method [20.595460553747163]
知識蒸留フレームワークに「教えるべきものを教える」戦略を導入する。
本稿では,より効率的かつ合理的な蒸留を支援するために,望まれる増補サンプルを探索するデータベース蒸留手法"TST"を提案する。
具体的には,教師の強みと生徒の弱みを補うことを支援する,優先バイアス付きニューラルネットワークベースのデータ拡張モジュールを設計する。
論文 参考訳(メタデータ) (2022-12-11T06:22:14Z) - Switchable Online Knowledge Distillation [68.2673580932132]
オンライン知識蒸留(OKD)は、教師と学生の違いを相互に活用することで、関係するモデルを改善する。
そこで我々は,これらの疑問に答えるために,スイッチブルオンライン知識蒸留(SwitOKD)を提案する。
論文 参考訳(メタデータ) (2022-09-12T03:03:40Z) - Know Thy Student: Interactive Learning with Gaussian Processes [11.641731210416102]
そこで本研究では,ガウス過程を用いた簡単な診断アルゴリズムを提案する。
本研究は,教師が生徒に実演を行い,余分な軌跡の送出を避けるためのオフライン強化学習環境である。
本実験は,対話型教師の助けを借りて,学生がより効率的に学習できる方法を示す。
論文 参考訳(メタデータ) (2022-04-26T04:43:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。