論文の概要: Representation Convergence: Mutual Distillation is Secretly a Form of Regularization
- arxiv url: http://arxiv.org/abs/2501.02481v4
- Date: Thu, 15 May 2025 12:40:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 14:06:35.832179
- Title: Representation Convergence: Mutual Distillation is Secretly a Form of Regularization
- Title(参考訳): 表象収束 : 相互蒸留は秘かに正規化の一形態である
- Authors: Zhengpeng Xie, Jiahang Cao, Qiang Zhang, Jianxiong Zhang, Changwei Wang, Renjing Xu,
- Abstract要約: 我々は、強化学習政策間の相互蒸留が暗黙の規則化であり、それらが無関係な特徴に過度に適合することを防ぐと論じている。
非関係な特徴に対するポリシーロバスト性の向上が一般化性能の向上につながることを初めて証明した。
- 参考スコア(独自算出の注目度): 9.040297581213826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we argue that mutual distillation between reinforcement learning policies serves as an implicit regularization, preventing them from overfitting to irrelevant features. We highlight two key contributions: (a) Theoretically, for the first time, we prove that enhancing the policy robustness to irrelevant features leads to improved generalization performance. (b) Empirically, we demonstrate that mutual distillation between policies contributes to such robustness, enabling the spontaneous emergence of invariant representations over pixel inputs. Overall, our findings challenge the conventional view of distillation as merely a means of knowledge transfer, offering a novel perspective on the generalization in deep reinforcement learning.
- Abstract(参考訳): 本稿では,強化学習政策間の相互蒸留が暗黙の規則化であり,それらが無関係な特徴に過度に適合することを防いでいることを論じる。
主なコントリビューションは2つです。
(a)理論上,無関係な特徴に対するポリシーロバスト性の向上が一般化性能の向上につながることを初めて証明する。
b) 実験的に, 政策間の相互蒸留がこのような堅牢性に寄与し, 画素入力上の不変表現が自然に出現することを実証する。
本研究は, 従来の蒸留は知識伝達の手段に過ぎないという見方に挑戦し, 深層強化学習の一般化の新たな視点を提供する。
関連論文リスト
- CogDual: Enhancing Dual Cognition of LLMs via Reinforcement Learning with Implicit Rule-Based Rewards [53.36917093757101]
ロールプレイング言語エージェント (RPLA) は,Large Language Models (LLM) に対する重要な適用方向として登場した。
テキスト認識対応推論パラダイムを採用した新しいRPLAであるtextbfCogDualを紹介する。
外部状況認識と内部自己認識を共同でモデル化することにより、CagDualは文字整合性と文脈整合性を改善した応答を生成する。
論文 参考訳(メタデータ) (2025-07-23T02:26:33Z) - Breaking Habits: On the Role of the Advantage Function in Learning Causal State Representations [4.514386953429771]
政策勾配法でよく用いられる利点関数は、勾配推定のばらつきを減少させる。
分析的および経験的証拠の両方で、有利な関数によるトレーニングが軌道外性能の向上につながることを示す。
論文 参考訳(メタデータ) (2025-06-13T16:06:47Z) - State Entropy Regularization for Robust Reinforcement Learning [49.08983925413188]
状態エントロピー規則化は、構造的および空間的に相関した摂動に対するロバスト性を向上させることを示す。
このようなバリエーションは、伝達学習では一般的であるが、標準的な堅牢な強化学習法では見落とされがちである。
論文 参考訳(メタデータ) (2025-06-08T11:15:31Z) - When Shift Happens - Confounding Is to Blame [21.028845817427825]
経験的リスク最小化は、最先端のアウト・オブ・ディストリビューションの一般化手法に匹敵する、あるいは超越する可能性があることを示す。
我々はこの現象を隠された共起によるものとみなす。
私たちは、隠れた共同創設者のためのプロキシで強化されたモデルが、隠れた共同設立のシフトによって引き起こされる課題を緩和できることを示します。
論文 参考訳(メタデータ) (2025-05-27T16:50:44Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [54.787341008881036]
Reinforced Meta-thinking Agents(ReMA)は,MARL(Multi-Agent Reinforcement Learning)を利用したメタ思考行動の抽出手法である。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
実験の結果、ReMAは複雑な推論タスクにおいて単一エージェントRLベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - A Dual-Agent Adversarial Framework for Robust Generalization in Deep Reinforcement Learning [7.923577336744156]
両エージェント対応型政策学習フレームワークを提案する。
このフレームワークは、エージェントが人間の事前知識を導入することなく、基礎となるセマンティクスを自発的に学習することを可能にする。
実験により, 両エージェントの一般化性能が著しく向上することが確認された。
論文 参考訳(メタデータ) (2025-01-29T02:36:47Z) - AgentRefine: Enhancing Agent Generalization through Refinement Tuning [28.24897427451803]
LLM(Large Language Model)ベースのエージェントは、人間のような複雑なタスクを実行する能力を示した。
オープンソースLLMとGPTシリーズのような商用モデルの間にはまだ大きなギャップがある。
本稿では,命令チューニングによるLLMのエージェント一般化機能の改善に焦点をあてる。
論文 参考訳(メタデータ) (2025-01-03T08:55:19Z) - Generalization from Starvation: Hints of Universality in LLM Knowledge Graph Learning [8.025148264640967]
グラフ学習中にニューラルネットワークが知識をどのように表現するかを検討する。
我々は普遍性のヒントを見つけ、同値表現は様々なモデルサイズで学習される。
これらのアトラクタ表現は、一般化を目に見えない例に最適化することを示す。
論文 参考訳(メタデータ) (2024-10-10T16:23:42Z) - Learning Interpretable Policies in Hindsight-Observable POMDPs through
Partially Supervised Reinforcement Learning [57.67629402360924]
本稿では,PSRL(Partially Supervised Reinforcement Learning)フレームワークを紹介する。
PSRLの中心は、教師なし学習と教師なし学習の融合である。
PSRLは、保存中のモデル解釈可能性を高め、従来の手法で設定された性能ベンチマークよりも大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-02-14T16:23:23Z) - Sim-to-Real Causal Transfer: A Metric Learning Approach to
Causally-Aware Interaction Representations [62.48505112245388]
エージェント相互作用の現代的表現の因果認識を詳細に検討する。
近年の表現は、非因果剤の摂動に対して部分的に耐性があることが示されている。
因果アノテーションを用いた潜在表現を正規化するための計量学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-07T18:57:03Z) - Improving Compositional Generalization Using Iterated Learning and
Simplicial Embeddings [19.667133565610087]
構成の一般化は人間には容易だが、ディープニューラルネットワークには難しい。
簡単な埋め込みモデルで繰り返し学習を行うことにより、この能力を向上させることを提案する。
このような変化の組み合わせは、他のアプローチよりも構成の一般化を改善することが示される。
論文 参考訳(メタデータ) (2023-10-28T18:30:30Z) - The Role of Diverse Replay for Generalisation in Reinforcement Learning [7.399291598113285]
強化学習における探索戦略とリプレイバッファが一般化に与える影響について検討する。
トレーニング環境からより多様なデータの収集とトレーニングを行うことで、ゼロショットの一般化が新しいタスクに改善されることが示される。
論文 参考訳(メタデータ) (2023-06-09T07:48:36Z) - Vector-based Representation is the Key: A Study on Disentanglement and
Compositional Generalization [77.57425909520167]
良質な概念認識と斬新な概念構成を両立させることが可能であることを示す。
本研究では,スカラーベース・アンタングル化作業のベクトルベース化を図り,両機能を向上する手法を提案する。
論文 参考訳(メタデータ) (2023-05-29T13:05:15Z) - Variational Distillation for Multi-View Learning [104.17551354374821]
我々は,多視点表現学習における2つの重要な特徴を利用するために,様々な情報ボトルネックを設計する。
厳密な理論的保証の下で,本手法は,観察とセマンティックラベルの内在的相関の把握を可能にする。
論文 参考訳(メタデータ) (2022-06-20T03:09:46Z) - Your Policy Regularizer is Secretly an Adversary [13.625408555732752]
報奨関数の最悪の摂動に対して,頑健性がヘッジングによって生じることを示す。
我々は、KLとα偏差正規化の下で、この頑健な対向報酬摂動を特徴付ける。
本稿では、最悪の報酬摂動に関する詳細な議論と、この堅牢性を示す直感的な経験例を紹介する。
論文 参考訳(メタデータ) (2022-03-23T17:54:20Z) - MAML and ANIL Provably Learn Representations [60.17417686153103]
我々は,MAMLとANILという2つの有名なメタ学習手法が,与えられたタスク群間の共通表現を学習可能であることを証明した。
具体的には、よく知られたマルチタスク線形表現学習環境では、指数関数的に高速な速度で接地トラス表現を復元することができる。
解析の結果,MAMLとANILがベースとなる表現を回復させる駆動力は,モデルの最終層に適応していることが判明した。
論文 参考訳(メタデータ) (2022-02-07T19:43:02Z) - Modeling Bounded Rationality in Multi-Agent Simulations Using Rationally
Inattentive Reinforcement Learning [85.86440477005523]
我々は、人間不合理性の確立されたモデルであるRational Inattention(RI)モデルを含む、より人間的なRLエージェントについて検討する。
RIRLは、相互情報を用いた認知情報処理のコストをモデル化する。
我々は、RIRLを用いることで、合理的な仮定の下で発見されたものと異なる、新しい平衡挙動の豊富なスペクトルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-18T20:54:00Z) - Which Mutual-Information Representation Learning Objectives are
Sufficient for Control? [80.2534918595143]
相互情報は、データの表現を学習するために魅力的な形式を提供する。
本稿では,最適政策の学習と表現のための状態表現の十分性について定式化する。
意外なことに、これらの2つの目的は、MDPの構造に関する軽度で一般的な仮定を前提に、不十分な表現をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-06-14T10:12:34Z) - What is Going on Inside Recurrent Meta Reinforcement Learning Agents? [63.58053355357644]
recurrent meta reinforcement learning (meta-rl)エージェントは「学習アルゴリズムの学習」を目的としてrecurrent neural network (rnn)を使用するエージェントである。
部分観測可能なマルコフ決定プロセス(POMDP)フレームワークを用いてメタRL問題を再構成することにより,これらのエージェントの内部動作機構を明らかにする。
論文 参考訳(メタデータ) (2021-04-29T20:34:39Z) - Agent-Centric Representations for Multi-Agent Reinforcement Learning [12.577354830985012]
完全協調型マルチエージェント強化学習において,対象中心表現が有用であるかどうかを検討する。
具体的には、RLアルゴリズムにエージェント中心の誘導バイアスを組み込む2つの方法を検討する。
これらのアプローチをGoogle Research Football環境およびDeepMind Lab 2D上で評価します。
論文 参考訳(メタデータ) (2021-04-19T15:43:40Z) - State Augmented Constrained Reinforcement Learning: Overcoming the
Limitations of Learning with Rewards [88.30521204048551]
制約付き強化学習の一般的な定式化には、与えられた閾値に個別に蓄積しなければならない複数の報酬が含まれる。
ここでは,任意の重み付けされた報酬の線形結合によって,所望の最適政策を誘導できない簡単な例を示す。
この研究は、ラグランジュ乗算器で状態を増大させ、原始双対法を再解釈することで、この欠点に対処する。
論文 参考訳(メタデータ) (2021-02-23T21:07:35Z) - Weakly-Supervised Disentanglement Without Compromises [53.55580957483103]
インテリジェントエージェントは、環境の変化を観察することで、有用な表現を学べるべきである。
変動の要因の少なくとも1つを共有する非I.d.画像のペアとしてそのような観測をモデル化する。
我々は,どの因子が変化したかのみを知るだけで,非絡み合った表現を学ぶのに十分であることを示す。
論文 参考訳(メタデータ) (2020-02-07T16:39:31Z) - Corruption-robust exploration in episodic reinforcement learning [76.19192549843727]
本研究は, システムにおける報酬と遷移確率の両面において, 敵対的腐敗下での多段階・多段階・多段階強化学習について検討した。
我々の枠組みは、汚職の欠如をほぼ最適に後悔する効率的なアルゴリズムをもたらす。
特に,本研究は,根本的強化学習のためのBandit-Feedbackモデルにおいて,純粋にI.d.遷移からの逸脱を保証した最初のサブ線形後悔の保証を提供する。
論文 参考訳(メタデータ) (2019-11-20T03:49:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。