論文の概要: Optimal Dynamic Regret by Transformers for Non-Stationary Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.16027v1
- Date: Fri, 22 Aug 2025 01:07:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.2192
- Title: Optimal Dynamic Regret by Transformers for Non-Stationary Reinforcement Learning
- Title(参考訳): 非定常強化学習のための変圧器による最適動的レグレット
- Authors: Baiyuan Chen, Shinji Ito, Masaaki Imaizumi,
- Abstract要約: 変圧器は非定常条件下でほぼ最適な動的後悔境界を達成可能であることを示す。
我々は,変圧器が非定常環境の処理に使用される戦略を近似でき,文脈内学習設定で近似器を学習できることを証明した。
- 参考スコア(独自算出の注目度): 31.19859292303397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have demonstrated exceptional performance across a wide range of domains. While their ability to perform reinforcement learning in-context has been established both theoretically and empirically, their behavior in non-stationary environments remains less understood. In this study, we address this gap by showing that transformers can achieve nearly optimal dynamic regret bounds in non-stationary settings. We prove that transformers are capable of approximating strategies used to handle non-stationary environments and can learn the approximator in the in-context learning setup. Our experiments further show that transformers can match or even outperform existing expert algorithms in such environments.
- Abstract(参考訳): トランスフォーマーは、幅広い領域で例外的なパフォーマンスを示してきた。
理論的にも経験的にも強化学習を行う能力は確立されているが、非定常環境での行動はいまだに理解されていない。
本研究では,非定常条件下で,変圧器がほぼ最適な動的後悔境界を達成できることを示し,このギャップに対処する。
我々は,変圧器が非定常環境の処理に使用される戦略を近似でき,文脈内学習設定で近似器を学習できることを証明した。
我々の実験は、トランスフォーマーがそのような環境で既存のエキスパートアルゴリズムにマッチしたり、性能を上回ったりすることを示しています。
関連論文リスト
- Continuum Transformers Perform In-Context Learning by Operator Gradient Descent [18.928543069018865]
連続体変換器は、演算子RKHSで勾配降下を実行することで、コンテキスト内演算子学習を行うことができることを示す。
本研究では、この最適性結果の実証検証を行い、この勾配降下を行うパラメータが連続変圧器訓練によって回復されることを実証する。
論文 参考訳(メタデータ) (2025-05-23T12:52:54Z) - One-Layer Transformer Provably Learns One-Nearest Neighbor In Context [48.4979348643494]
本研究では、1層変圧器が1層近傍の規則を学習する能力について検討する。
単一のソフトマックスアテンション層は、ワンアレスト隣人のように振る舞うことをうまく学ぶことができる。
論文 参考訳(メタデータ) (2024-11-16T16:12:42Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。
この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文 参考訳(メタデータ) (2024-09-28T13:24:11Z) - Linear Transformers are Versatile In-Context Learners [19.988368693379087]
線形変圧器の各層が負の線形回帰問題に対する重みベクトルを維持していることを示す。
また、異なるレベルのノイズでトレーニングデータが破損する難易度シナリオにおける線形変圧器の使用についても検討する。
ここでは,線形変圧器が複雑かつ高効率な最適化アルゴリズムを発見することを実証する。
論文 参考訳(メタデータ) (2024-02-21T23:45:57Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。