Fugu-MT 論文翻訳(概要): Thermodynamics of Reinforcement Learning Curricula

論文の概要: Thermodynamics of Reinforcement Learning Curricula

arxiv url: http://arxiv.org/abs/2603.12324v1
Date: Thu, 12 Mar 2026 18:00:03 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-16 17:38:11.700248
Title: Thermodynamics of Reinforcement Learning Curricula
Title（参考訳）: 強化学習カリキュラムの熱力学
Authors: Jacob Adamczyk, Juan Sebastian Rojas, Rahul V. Kulkarni,
Abstract要約: 強化学習におけるカリキュラム学習の形式化には非平衡熱力学を用いる。特に,タスク多様体上の座標として報酬パラメータを解釈することにより,RLの幾何学的枠組みを提案する。余剰熱力学的作業を最小化することにより、最適キュリキュラは、このタスク空間の測地線に対応することを示す。
参考スコア（独自算出の注目度）: 5.008597638379228
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Connections between statistical mechanics and machine learning have repeatedly proven fruitful, providing insight into optimization, generalization, and representation learning. In this work, we follow this tradition by leveraging results from non-equilibrium thermodynamics to formalize curriculum learning in reinforcement learning (RL). In particular, we propose a geometric framework for RL by interpreting reward parameters as coordinates on a task manifold. We show that, by minimizing the excess thermodynamic work, optimal curricula correspond to geodesics in this task space. As an application of this framework, we provide an algorithm, "MEW" (Minimum Excess Work), to derive a principled schedule for temperature annealing in maximum-entropy RL.
Abstract（参考訳）: 統計力学と機械学習のつながりは繰り返し実りあることが証明され、最適化、一般化、表現学習に関する洞察を与えている。本研究では、非平衡熱力学の結果を活用して、強化学習(RL)のカリキュラム学習を形式化する。特に,タスク多様体上の座標として報酬パラメータを解釈することにより,RLの幾何学的枠組みを提案する。余剰熱力学的作業を最小化することにより、最適キュリキュラは、このタスク空間の測地線に対応することを示す。本フレームワークの適用例として,最大エントロピーRLにおける温度アニールの原理的スケジュールを導出するアルゴリズム"MEW"(Minimum Excess Work)を提案する。

関連論文リスト

On the Entropy Dynamics in Reinforcement Fine-Tuning of Large Language Models [54.61810451777578]
エントロピーは、大きな言語モデルによって生成される出力の多様性を測定するための重要な指標となる。近年の研究では、強化微調整における探究と利用のバランスを改善するために、エントロピーの監視と調整に重点を置いている。
論文参考訳（メタデータ） (2026-02-03T11:14:58Z)
Thermodynamically Optimal Regularization under Information-Geometric Constraints [0.6345523830122167]
現代の機械学習は経験的に成功したが理論上は異質な正規化技法の収集に依存している。本稿では,熱力学的最適性,情報幾何学,正規化を結合する統一理論フレームワークを提案する。
論文参考訳（メタデータ） (2026-01-24T06:26:18Z)
Training thermodynamic computers by gradient descent [0.0]
所望の計算を行うために,熱力学コンピュータのパラメータを降下によって調整する方法を示す。我々は、デジタルおよび熱力学的実装のエネルギーコストの比率である熱力学的優位性を7桁を超えると見積もる。
論文参考訳（メタデータ） (2025-09-18T18:12:55Z)
Performance of machine-learning-assisted Monte Carlo in sampling from simple statistical physics models [0.38233569758620045]
キュリー・ワイスモデルに対する浅いMADEアーキテクチャに適用した広範に使われている逐次テンパリング手法について検討する。この研究は、モンテカルロのサンプリングと最適化に機械学習技術を統合するための明確な理論的基盤を確立する。
論文参考訳（メタデータ） (2025-05-28T17:13:11Z)
Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文参考訳（メタデータ） (2024-09-27T13:05:02Z)
Temperature Balancing, Layer-wise Weight Analysis, and Neural Network Training [58.20089993899729]
本稿では,直感的で効果的な階層学習手法であるTempBalanceを提案する。我々は、TempBalanceが通常のSGDと注意深く調整されたスペクトルノルム正規化より著しく優れていることを示す。また、TempBalanceは最先端のメトリクスやスケジューラよりも優れています。
論文参考訳（メタデータ） (2023-12-01T05:38:17Z)
Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文参考訳（メタデータ） (2023-05-29T15:00:09Z)
Energy-Efficient and Federated Meta-Learning via Projected Stochastic Gradient Ascent [79.58680275615752]
エネルギー効率のよいメタラーニングフレームワークを提案する。各タスクは別々のエージェントによって所有されていると仮定するため、メタモデルをトレーニングするために限られたタスクが使用される。
論文参考訳（メタデータ） (2021-05-31T08:15:44Z)
Weighted Entropy Modification for Soft Actor-Critic [95.37322316673617]
我々は,強化学習における最大シャノンエントロピーの原理を,定性的重みを持つ状態-作用対を特徴付けることにより,重み付きエントロピーに一般化する。本稿では,導入した重み関数による自己バランス探索を動機とするアルゴリズムを提案し,実装の単純さに拘わらず,Mujocoタスクの最先端性能を実現する。
論文参考訳（メタデータ） (2020-11-18T04:36:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。