Fugu-MT 論文翻訳(概要): Skill-aware Mutual Information Optimisation for Generalisation in Reinforcement Learning

論文の概要: Skill-aware Mutual Information Optimisation for Generalisation in Reinforcement Learning

arxiv url: http://arxiv.org/abs/2406.04815v1
Date: Fri, 7 Jun 2024 10:35:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-10 14:40:28.881979
Title: Skill-aware Mutual Information Optimisation for Generalisation in Reinforcement Learning
Title（参考訳）: 強化学習における一般化のためのスキルを考慮した相互情報最適化
Authors: Xuehui Yu, Mhairi Dunion, Xin Li, Stefano V. Albrecht,
Abstract要約: Skill-aware Mutual Information (SaMI) は,スキルに応じたコンテキスト埋め込みの識別を支援する最適化目的である。そこで我々は,SaMIの目的を最適化するための$K$sample推定器であるSkill-aware Noise Contrastive Estimation (SaNCE)を提案する。 SMIを最大化することで学習するRLエージェントが、目に見えないタスクに対して、ゼロショットの一般化を大幅に改善できることを実証的に見出した。
参考スコア（独自算出の注目度）: 14.62474759939562
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Meta-Reinforcement Learning (Meta-RL) agents can struggle to operate across tasks with varying environmental features that require different optimal skills (i.e., different modes of behaviours). Using context encoders based on contrastive learning to enhance the generalisability of Meta-RL agents is now widely studied but faces challenges such as the requirement for a large sample size, also referred to as the $\log$-$K$ curse. To improve RL generalisation to different tasks, we first introduce Skill-aware Mutual Information (SaMI), an optimisation objective that aids in distinguishing context embeddings according to skills, thereby equipping RL agents with the ability to identify and execute different skills across tasks. We then propose Skill-aware Noise Contrastive Estimation (SaNCE), a $K$-sample estimator used to optimise the SaMI objective. We provide a framework for equipping an RL agent with SaNCE in practice and conduct experimental validation on modified MuJoCo and Panda-gym benchmarks. We empirically find that RL agents that learn by maximising SaMI achieve substantially improved zero-shot generalisation to unseen tasks. Additionally, the context encoder equipped with SaNCE demonstrates greater robustness to reductions in the number of available samples, thus possessing the potential to overcome the $\log$-$K$ curse.
Abstract（参考訳）: メタ強化学習(Meta-Reinforcement Learning、Meta-RL)エージェントは、異なる最適なスキル(振る舞いの異なるモード)を必要とする様々な環境特徴を持つタスクを横断的に操作するのに苦労する。コントラスト学習に基づくコンテキストエンコーダを使用して、メタRLエージェントの汎用性を高めることが広く研究されているが、大規模なサンプルサイズ($\log$-$K$ curseとも呼ばれる)の要件のような課題に直面している。異なるタスクに対するRLの一般化を改善するために、まず、スキルに応じたコンテキスト埋め込みの識別を支援する最適化目的であるSkill-aware Mutual Information (SaMI)を導入する。そこで我々は,SaMIの目的を最適化するための$K$sample推定器であるSkill-aware Noise Contrastive Estimation (SaNCE)を提案する。本研究では,実際にSNCEにRLエージェントを装着し,修正した MuJoCo および Panda-gym ベンチマーク上で実験的な検証を行うためのフレームワークを提供する。 SMIを最大化することで学習するRLエージェントが、目に見えないタスクに対して、ゼロショットの一般化を大幅に改善できることを実証的に見出した。さらに、SaNCEを備えたコンテキストエンコーダは、利用可能なサンプル数を減らすためにより堅牢であることを示し、$$\log$-$K$の呪いを克服する可能性を持っている。

関連論文リスト

UpSkill: Mutual Information Skill Learning for Structured Response Diversity in LLMs [28.526758776988256]
本稿では,相互情報スキル学習を大規模言語モデルに適用する訓練時間手法であるUpSkillを紹介する。以上の結果から,UpSkillはより強力なベースモデル上でのマルチタスクのメトリクスを改善することを示す。 pass@kの改善が相互情報目的と密接に結びついているという実証的証拠と理論的証拠の両方を見いだす。
論文参考訳（メタデータ） (2026-02-25T15:34:14Z)
Data-Centric Interpretability for LLM-based Multi-Agent Reinforcement Learning [39.84288631342219]
フルストレス外交の高度環境から大規模強化学習訓練を実施する。本稿では,SAE特徴をトレーニング力学に関する解釈可能な仮説にグループ化するメタオートインタプリタを紹介する。私たちは、主観的に興味深く、一見有用なSAE機能でさえ、人間にとって役に立たないよりも悪いかもしれないことに気付きました。
論文参考訳（メタデータ） (2026-02-05T01:21:22Z)
Multimodal Reinforcement Learning with Agentic Verifier for AI Agents [131.46008226323423]
Argosは、エージェントタスクの推論モデルをトレーニングするための、原則化されたマルチモーダル報酬エージェントである。エージェント検証をSFTデータとRLトレーニングの両方で活用することにより、我々のモデルは最先端の結果を得ることができる。
論文参考訳（メタデータ） (2025-12-03T04:42:47Z)
Demystifying Reinforcement Learning in Agentic Reasoning [90.3737088727791]
エージェント推論における強化学習のデミスティフィケーションのための包括的かつ体系的な調査を行う。 i) 縫合された合成軌道を、実際のエンドツーエンドのツール・ツー・ユース・トラジェクトリに置き換えることで、より強力なSFTが得られる。探索フレンドリーな技術は、高いクリップ、過剰な報酬形成、適切なポリシーエントロピーの維持といったエージェントRLにとって不可欠であり、訓練効率を向上させることができる。
論文参考訳（メタデータ） (2025-10-13T17:57:15Z)
Multiple Weaks Win Single Strong: Large Language Models Ensemble Weak Reinforcement Learning Agents into a Supreme One [28.264011412168347]
モデルアンサンブルは強化学習(RL)において有効なエージェントの訓練に有用である。 LLM-Ensは,タスク固有の意味理解を用いてRLモデルのアンサンブルを強化する手法である。
論文参考訳（メタデータ） (2025-05-21T09:35:43Z)
ToolRL: Reward is All Tool Learning Needs [54.16305891389931]
大規模言語モデル(LLM)は、ツールの使用能力を得るために、しばしば監督された微調整(SFT)を行う。近年の強化学習(RL)の進歩は、有望な推論と一般化能力を示している。本稿では、RLパラダイムにおけるツール選択とアプリケーションタスクに対する報酬設計に関する最初の総合的研究について述べる。
論文参考訳（メタデータ） (2025-04-16T21:45:32Z)
SWEET-RL: Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks [110.20297293596005]
大規模言語モデル(LLM)エージェントは、実世界のタスクでマルチターンインタラクションを実行する必要がある。 LLMエージェントを最適化するための既存のマルチターンRLアルゴリズムは、LLMの一般化能力を活用しながら、複数回にわたって効果的なクレジット割り当てを行うことができない。本稿では,新たなRLアルゴリズムであるSWEET-RLを提案する。我々の実験は、SWEET-RLがコルベンチにおける成功率と勝利率を、他の最先端マルチターンRLアルゴリズムと比較して6%向上することを示した。
論文参考訳（メタデータ） (2025-03-19T17:55:08Z)
Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文参考訳（メタデータ） (2023-02-03T00:11:02Z)
Efficient Meta Reinforcement Learning for Preference-based Fast Adaptation [17.165083095799712]
本研究では,ループ内強化学習の文脈における少数ショット適応の問題について検討する。そこで我々は,嗜好に基づくフィードバックによる迅速なポリシー適応を実現するメタRLアルゴリズムを開発した。
論文参考訳（メタデータ） (2022-11-20T03:55:09Z)
Neuroevolution is a Competitive Alternative to Reinforcement Learning for Skill Discovery [12.586875201983778]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な制御タスクを解決するために神経ポリシーをトレーニングするための強力なパラダイムとして登場した。品質多様性(QD)手法は,スキル発見のための情報理論強化RLの代替手段であることを示す。
論文参考訳（メタデータ） (2022-10-06T11:06:39Z)
Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文参考訳（メタデータ） (2022-09-24T14:22:29Z)
Learning Action Translator for Meta Reinforcement Learning on Sparse-Reward Tasks [56.63855534940827]
本研究は,訓練作業中の行動伝達子を学習するための,新たな客観的機能を導入する。理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近似可能であることを検証する。本稿では,アクショントランスレータとコンテキストベースメタRLアルゴリズムを組み合わせることで,データ収集の効率化と,メタトレーニング時の効率的な探索を提案する。
論文参考訳（メタデータ） (2022-07-19T04:58:06Z)
REIN-2: Giving Birth to Prepared Reinforcement Learning Agents Using Reinforcement Learning Agents [0.0]
本稿では,課題学習の目的を課題(あるいは課題の集合)の目的にシフトさせるメタラーニング手法を提案する。我々のモデルであるREIN-2は、RLフレームワーク内で構成されたメタ学習スキームであり、その目的は、他のRLエージェントの作り方を学ぶメタRLエージェントを開発することである。従来の最先端のDeep RLアルゴリズムと比較して、実験結果は、人気のあるOpenAI Gym環境において、我々のモデルの顕著な性能を示している。
論文参考訳（メタデータ） (2021-10-11T10:13:49Z)
Meta-Reinforcement Learning in Broad and Non-Parametric Environments [8.091658684517103]
非パラメトリック環境におけるタスクに対するタスク推論に基づくメタRLアルゴリズムTIGRを導入する。我々は,タスク推論学習から政策訓練を分離し,教師なしの再構築目標に基づいて推論機構を効率的に訓練する。半チーター環境に基づく定性的に異なるタスクのベンチマークを行い、最先端のメタRL手法と比較してTIGRの優れた性能を示す。
論文参考訳（メタデータ） (2021-08-08T19:32:44Z)
Variational Empowerment as Representation Learning for Goal-Based Reinforcement Learning [114.07623388322048]
本稿では,標準目標条件付きRL (GCRL) を目的変動エンパワーメントによってカプセル化する方法について論じる。我々の研究は、ゴールベースRLで表現学習技術を評価し、分析し、開発する新しい基礎を築いた。
論文参考訳（メタデータ） (2021-06-02T18:12:26Z)
Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文参考訳（メタデータ） (2020-10-06T16:51:09Z)
Dynamics Generalization via Information Bottleneck in Deep Reinforcement Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文参考訳（メタデータ） (2020-08-03T02:24:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。