論文の概要: Tracking Drift: Variation-Aware Entropy Scheduling for Non-Stationary Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.19624v1
- Date: Tue, 27 Jan 2026 13:58:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.342098
- Title: Tracking Drift: Variation-Aware Entropy Scheduling for Non-Stationary Reinforcement Learning
- Title(参考訳): 追跡ドリフト:非定常強化学習のための変分対応エントロピースケジューリング
- Authors: Tongxi Wang, Zhuoyang Xia, Xinran Chen, Shan Liu,
- Abstract要約: AES(Adaptive Entropy Scheduling)を提案し、トレーニング中に観測可能ドリフトプロキシを用いてエントロピー係数/温度をオンラインに適応的に調整する。
AESはドリフトによる性能劣化率を著しく低減し、急激な変化後の回復を加速する。
- 参考スコア(独自算出の注目度): 15.503982614515655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world reinforcement learning often faces environment drift, but most existing methods rely on static entropy coefficients/target entropy, causing over-exploration during stable periods and under-exploration after drift (thus slow recovery), and leaving unanswered the principled question of how exploration intensity should scale with drift magnitude. We prove that entropy scheduling under non-stationarity can be reduced to a one-dimensional, round-by-round trade-off, faster tracking of the optimal solution after drift vs. avoiding gratuitous randomness when the environment is stable, so exploration strength can be driven by measurable online drift signals. Building on this, we propose AES (Adaptive Entropy Scheduling), which adaptively adjusts the entropy coefficient/temperature online using observable drift proxies during training, requiring almost no structural changes and incurring minimal overhead. Across 4 algorithm variants, 12 tasks, and 4 drift modes, AES significantly reduces the fraction of performance degradation caused by drift and accelerates recovery after abrupt changes.
- Abstract(参考訳): 実世界の強化学習は環境の漂流に直面していることが多いが、既存のほとんどの手法は静的エントロピー係数/ターゲットエントロピーに依存しており、安定な期間に過度に探索し、漂流後に過度に探索し、また探索強度が漂流度とともにどのようにスケールするかという原則的な疑問を残している。
非定常条件下でのエントロピースケジューリングは、1次元のラウンド・バイ・ラウンドのトレードオフに還元でき、ドリフト後の最適解の追跡がより高速になる。
そこで我々は,AES(Adaptive Entropy Scheduling,適応エントロピースケジューリング)を提案し,トレーニング中に観測可能ドリフトプロキシを用いてエントロピー係数/温度を適応的に調整し,構造的変化をほとんど必要とせず,オーバーヘッドを最小限に抑える。
4種類のアルゴリズム、12のタスク、および4つのドリフトモードにおいて、AESはドリフトによる性能劣化の分断を著しく低減し、急激な変化後の回復を加速する。
関連論文リスト
- On the Provable Suboptimality of Momentum SGD in Nonstationary Stochastic Optimization [0.0]
各種段差系における均一な凸性および滑らか性の下でのグラディエントDescentの追跡性能を解析した。
本研究では,ドリフトによる追従誤差を大幅に増幅し,追従能力に明らかなペナルティを与えることを示す。
これらの結果は、動的環境における運動量の経験的不安定性に対する決定的な理論的根拠を与える。
論文 参考訳(メタデータ) (2026-01-18T03:27:21Z) - ResAD: Normalized Residual Trajectory Modeling for End-to-End Autonomous Driving [64.42138266293202]
ResADは正規化された残留軌道モデリングフレームワークである。
学習タスクを再編成し、慣性参照からの残留偏差を予測する。
NAVSIMベンチマークでは、ResADはバニラ拡散ポリシーを用いて最先端のPDMS 88.6を達成している。
論文 参考訳(メタデータ) (2025-10-09T17:59:36Z) - Rotation Control Unlearning: Quantifying and Controlling Continuous Unlearning for LLM with The Cognitive Rotation Space [66.51378598755933]
本研究では,学習継続過程における学習度を定量化し,制御する,回転制御アンラーニング(RCU)と呼ばれる新しい手法を提案する。
歪対称損失は、回転角の変化が連続的未学習過程をシミュレートできる認知回転空間の存在を構築するように設計されている。
複数のデータセットに対する実験により、保持されたデータセットを持たないメソッドがSOTA性能を達成することを確認した。
論文 参考訳(メタデータ) (2025-09-30T03:59:29Z) - AiGAS-dEVL-RC: An Adaptive Growing Neural Gas Model for Recurrently Drifting Unsupervised Data Streams [6.7236795813629]
本研究は,急激な再帰流を処理するために,GNGアルゴリズムに基づく新しい手法を提案する。
提案手法はコンパクトだが情報的なメモリ構造を維持しており,過去の概念や再帰概念の知識を効率的に保存し,検索することができる。
繰り返し知識を活用できない他の手法とは異なり、提案手法は、教師なしドリフトデータフローに対する堅牢で効率的なオンライン学習ソリューションであることが証明されている。
論文 参考訳(メタデータ) (2025-04-08T07:42:50Z) - datadriftR: An R Package for Concept Drift Detection in Predictive Models [0.0]
本稿では,コンセプトドリフトを検出するためのRパッケージであるドリフト器を紹介する。
ドリフト検出とドリフトの背後にある原因の理解を深めることのできるプロファイルドリフト検出(PDD)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-15T20:59:49Z) - Large Continual Instruction Assistant [59.585544987096974]
CIT(Continuous Instruction Tuning)は、大規模モデルにデータによる人間の意図データに従うよう指示するために用いられる。
既存の更新勾配は、CITプロセス中に前のデータセットのパフォーマンスを著しく損なうことになる。
本稿では,この課題に対処する汎用的な連続的命令チューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T11:24:59Z) - Confidence-Controlled Exploration: Efficient Sparse-Reward Policy Learning for Robot Navigation [72.24964965882783]
強化学習(RL)はロボットナビゲーションにおいて有望なアプローチであり、ロボットは試行錯誤を通じて学習することができる。
現実世界のロボットタスクは、しばしばまばらな報酬に悩まされ、非効率な探索と準最適政策に繋がる。
本稿では,RLに基づくロボットナビゲーションにおいて,報酬関数を変更せずにサンプル効率を向上させる新しい手法であるConfidence-Controlled Exploration (CCE)を紹介する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。