論文の概要: Meta-reinforcement learning with minimum attention
- arxiv url: http://arxiv.org/abs/2505.16741v1
- Date: Thu, 22 May 2025 14:53:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.36939
- Title: Meta-reinforcement learning with minimum attention
- Title(参考訳): 最小限の注意力を有するメタ強化学習
- Authors: Pilhwa Lee, Shashank Gupta,
- Abstract要約: 最小限の注意は、ブロケットが最初に提案した状態と時間に関する制御の変化において最小の行動原理を適用している。
報奨の一環として強化学習に最小限の注意を払い、メタラーニングと安定化との関連について検討する。
実験により、モデルフリーおよびモデルベースRLにおける最先端アルゴリズムと比較して、最小の注意力は優れた能力を示すことを示した。
- 参考スコア(独自算出の注目度): 1.41532918894479
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Minimum attention applies the least action principle in the changes of control concerning state and time, first proposed by Brockett. The involved regularization is highly relevant in emulating biological control, such as motor learning. We apply minimum attention in reinforcement learning (RL) as part of the rewards and investigate its connection to meta-learning and stabilization. Specifically, model-based meta-learning with minimum attention is explored in high-dimensional nonlinear dynamics. Ensemble-based model learning and gradient-based meta-policy learning are alternately performed. Empirically, we show that the minimum attention does show outperforming competence in comparison to the state-of-the-art algorithms in model-free and model-based RL, i.e., fast adaptation in few shots and variance reduction from the perturbations of the model and environment. Furthermore, the minimum attention demonstrates the improvement in energy efficiency.
- Abstract(参考訳): 最小限の注意は、ブロケットが最初に提案した状態と時間に関する制御の変化において最小の行動原理を適用している。
関連する正規化は、運動学習のような生物学的制御のエミュレーションに非常に関係している。
報奨の一環として強化学習(RL)に最小限の注意を払って,メタラーニングと安定化との関連について検討する。
具体的には,高次元非線形力学において,最小注意力を有するモデルに基づくメタラーニングについて検討する。
エンサンブルに基づくモデル学習と勾配に基づくメタ政治学習を交互に行う。
実験により、モデルフリーおよびモデルベースRLにおける最先端アルゴリズムと比較して、最小限の注意力は優れた能力を示し、すなわち、少数のショットでの高速適応と、モデルと環境の摂動によるばらつきの低減を示す。
さらに、最小限の注意はエネルギー効率の改善を示す。
関連論文リスト
- MiMu: Mitigating Multiple Shortcut Learning Behavior of Transformers [19.27328009299697]
経験的リスク最小化(ERM: Empirical Risk Minimization)モデルは、学習プロセス中に特徴とラベルの間の素早い相関に依存することが多い。
我々は,複数のショートカット学習行動を緩和するために,トランスフォーマーに基づく一般化と統合された新しい手法であるMiMuを提案する。
論文 参考訳(メタデータ) (2025-04-14T08:11:09Z) - Reinforcement Learning for Machine Learning Model Deployment: Evaluating Multi-Armed Bandits in ML Ops Environments [0.0]
本稿では,強化学習(RL)に基づくモデル管理が,展開決定をより効果的に管理できるかどうかを検討する。
当社のアプローチは、デプロイされたモデルを継続的に評価し、パフォーマンスの低いモデルをリアルタイムでロールバックすることで、より適応的な運用環境を実現する。
この結果から,RLベースのモデル管理は,自動化を向上し,手作業による介入への依存を軽減し,デプロイ後のモデル障害に伴うリスクを軽減することが示唆された。
論文 参考訳(メタデータ) (2025-03-28T16:42:21Z) - LoRE-Merging: Exploring Low-Rank Estimation For Large Language Model Merging [10.33844295243509]
基本モデルであるtextscLoRE-Merging へのアクセスを必要とせず,タスクベクトルの低ランク推定に基づくモデルマージのための統一フレームワークを提案する。
我々のアプローチは、細調整されたモデルからのタスクベクトルは、しばしば支配的な特異値の限られた数しか示さず、低ランク推定が干渉しにくくなるという観察に動機づけられている。
論文 参考訳(メタデータ) (2025-02-15T10:18:46Z) - Expressive and Generalizable Low-rank Adaptation for Large Models via Slow Cascaded Learning [55.5715496559514]
LoRA Slow Cascade Learning (LoRASC)は、LoRAの表現性と一般化能力を高めるために設計された革新的な技術である。
提案手法は,混合低ランク適応を可能にするカスケード学習戦略により表現性を増強し,複雑なパターンをキャプチャするモデルの能力を高める。
論文 参考訳(メタデータ) (2024-07-01T17:28:59Z) - Data-Efficient Task Generalization via Probabilistic Model-based Meta
Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。
既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。
実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文 参考訳(メタデータ) (2023-11-13T18:51:57Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Causal Dynamics Learning for Task-Independent State Abstraction [61.707048209272884]
タスク独立状態抽象化(CDL)のための因果ダイナミクス学習を導入する。
CDLは、状態変数とアクションの間の不要な依存関係を取り除く理論的に証明された因果ダイナミクスモデルを学ぶ。
状態抽象化は、学習されたダイナミクスから導き出すことができる。
論文 参考訳(メタデータ) (2022-06-27T17:02:53Z) - Value Gradient weighted Model-Based Reinforcement Learning [28.366157882991565]
モデルベース強化学習(MBRL)は、制御ポリシーを得るための効率的な手法である。
VaGraMは価値認識モデル学習の新しい手法である。
論文 参考訳(メタデータ) (2022-04-04T13:28:31Z) - Discriminator Augmented Model-Based Reinforcement Learning [47.094522301093775]
学習したモデルが不正確であり、計画が損なわれ、パフォーマンスが悪くなるのは実際には一般的です。
本稿では,真の力学と学習力学の相違を考慮に入れた重要サンプリングフレームワークによる計画の改善を目的とする。
論文 参考訳(メタデータ) (2021-03-24T06:01:55Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。