論文の概要: Teacher-Student Representational Alignment for Reinforcement Learning-Driven Imitation Learning
- arxiv url: http://arxiv.org/abs/2605.28372v1
- Date: Wed, 27 May 2026 12:12:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.033991
- Title: Teacher-Student Representational Alignment for Reinforcement Learning-Driven Imitation Learning
- Title(参考訳): 強化学習駆動模倣学習のための教師学習表現アライメント
- Authors: Meraj Mammadov, Pedro Zuidberg Dos Martires, Johannes Andreas Stork,
- Abstract要約: 状態に基づく強化学習(RL)政策からの模倣学習は、ロボット工学で一般的な複雑で高次元の観測空間における次元性の呪いを克服するための一般的なアプローチである。
本稿では,教師と生徒が個別に学習した時に現れる,既約の模倣ギャップについて考察する。
そこで本研究では,エージェント固有の観察を隠蔽する共有埋め込み空間を学習し,提案手法を提案する。
- 参考スコア(独自算出の注目度): 11.538345159297839
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation learning (IL) from a state-based reinforcement learning (RL) policy is a common approach to overcome the curse of dimensionality in complex and high-dimensional observation spaces prevalent in robotics. This paper addresses the irreducible imitation gap that emerges when teacher and student are learned in isolation, and the teacher policy has the liberty to rely on privileged state information that the student cannot infer from its observations. Instead of improving poor student performance with RL finetuning after IL, which often requires a whole new training setup, we propose a novel algorithm which learns a shared embedding space that hides agent-specific observations and thus trains imitable teacher policies by construction. We train the shared embedding space with self-supervised contrastive learning in parallel to the teacher policy and prevent it from extracting private information by limiting its gradients from updating the encoder networks. We perform evaluations on several example domains and compare to state-of-the-art baselines showing that our algorithm enables higher student performance with substantially reduced imitation gap.
- Abstract(参考訳): 状態に基づく強化学習(RL)政策からの模倣学習(IL)は、ロボット工学で一般的な複雑で高次元の観測空間における次元性の呪いを克服するための一般的なアプローチである。
本稿では,教師と生徒が個別に学習した時に生じる,既約の模倣のギャップに対処し,教師の方針は,生徒が観察から推測できない特権状態情報に頼る自由を有する。
エージェント固有の観察を隠蔽する共有埋め込み空間を学習し,建設による教師の教育方針を訓練する新しいアルゴリズムを提案する。
我々は,教師の方針と平行して,自己指導型コントラスト学習で共有埋め込み空間を訓練し,エンコーダネットワークの更新による勾配の制限による個人情報の抽出を防止する。
提案手法は,いくつかのサンプル領域で評価を行い,提案アルゴリズムが再現率を著しく低減し,生徒の成績を向上できることを示す。
関連論文リスト
- Teacher-Guided Policy Optimization for LLM Distillation [90.49982387646861]
Teacher-Guided Policy Optimization (TGPO) は、生徒のロールアウトに条件付き教師予測を活用することで、高密度な方向性誘導を取り入れたオンラインアルゴリズムである。
複雑な推論ベンチマークの実験では、TGPOは標準ベースラインを著しく上回り、異なる教師にとって堅牢であることが示されている。
論文 参考訳(メタデータ) (2026-05-13T09:20:03Z) - Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [86.99017195607077]
無線ネットワークにおける自己回帰的マルコフ音源のリアルタイムサンプリングと推定について検討する。
政策最適化のためのグラフィカル強化学習フレームワークを提案する。
理論的には、提案したポリシーは転送可能であり、あるグラフ上で訓練されたポリシーを構造的に類似したグラフに効果的に適用することができる。
論文 参考訳(メタデータ) (2026-01-19T02:18:45Z) - UCO: A Multi-Turn Interactive Reinforcement Learning Method for Adaptive Teaching with Large Language Models [59.693733170193944]
大規模言語モデル(LLM)は、教育環境において、回答提供者からインテリジェントな家庭教師へとシフトしている。
最近の強化学習アプローチはこの制限に対処するが、2つの重要な課題に直面している。
これらの課題に対処するために一方向認知最適化法(UCO)を提案する。
論文 参考訳(メタデータ) (2025-11-12T01:27:02Z) - TAR: Teacher-Aligned Representations via Contrastive Learning for Quadrupedal Locomotion [3.1194372040101928]
強化学習(Reinforcement Learning, RL)による四足歩行運動は、教師/学生のパラダイムを用いて一般的に解決される。
本稿では,自己指導型コントラスト学習による特権情報を活用したTAR(Teacher-Aligned Representations)を提案する。
その結果,最先端のベースラインに比べて2倍のトレーニングが促進され,ピーク性能が得られた。
論文 参考訳(メタデータ) (2025-03-26T12:49:26Z) - Learning Interpretable Policies in Hindsight-Observable POMDPs through
Partially Supervised Reinforcement Learning [57.67629402360924]
本稿では,PSRL(Partially Supervised Reinforcement Learning)フレームワークを紹介する。
PSRLの中心は、教師なし学習と教師なし学習の融合である。
PSRLは、保存中のモデル解釈可能性を高め、従来の手法で設定された性能ベンチマークよりも大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-02-14T16:23:23Z) - Distantly-Supervised Named Entity Recognition with Adaptive Teacher
Learning and Fine-grained Student Ensemble [56.705249154629264]
NERモデルの堅牢性を改善するために,自己学習型教員学生フレームワークを提案する。
本稿では,2つの教員ネットワークからなる適応型教員学習を提案する。
微粒な学生アンサンブルは、教師モデルの各フラグメントを、生徒の対応するフラグメントの時間移動平均で更新し、各モデルフラグメントのノイズに対する一貫した予測を強化する。
論文 参考訳(メタデータ) (2022-12-13T12:14:09Z) - Dealing with the Unknown: Pessimistic Offline Reinforcement Learning [25.30634466168587]
本稿では, PessORLアルゴリズムを用いて, エージェントを慣れ親しんだ領域に積極的に誘導する手法を提案する。
我々は、アウト・オブ・ディストリビューション(OOD)状態に起因する問題に注目し、トレーニングデータセットに欠けている状態において、意図的に高い価値をペナルティ化する。
論文 参考訳(メタデータ) (2021-11-09T22:38:58Z) - Privacy-Preserving Teacher-Student Deep Reinforcement Learning [23.934121758649052]
教師のトレーニングデータセットのプライバシーを保護するプライベートなメカニズムを開発しています。
このアルゴリズムは学生の集中率と実用性を改善することを実証的に示した。
論文 参考訳(メタデータ) (2021-02-18T20:15:09Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z) - Mutual Information Based Knowledge Transfer Under State-Action Dimension
Mismatch [14.334987432342707]
本研究では,教師と生徒が任意に状態空間と行動空間を共有できるトランスファー学習の枠組みを提案する。
このミスマッチに対処するため,教師の方針や価値ネットワークから知識を体系的に抽出できる埋め込みを生成する。
我々は,教師と生徒が異なる状態空間と行動空間を持つ状況下で,伝達学習を成功させることを実証した。
論文 参考訳(メタデータ) (2020-06-12T09:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。