論文の概要: On the Divergence of Differential Temporal Difference Learning without Local Clocks
- arxiv url: http://arxiv.org/abs/2605.06874v1
- Date: Thu, 07 May 2026 19:19:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.574299
- Title: On the Divergence of Differential Temporal Difference Learning without Local Clocks
- Title(参考訳): 局所クロックのない時間差分学習の多様性について
- Authors: David Antrobius, Shangtong Zhang,
- Abstract要約: この研究は、グローバルクロックとローカルクロックを使用して、2種類の学習率を区別する。
割引RLでは、局所時計に収束するRLアルゴリズムは、常に大域時計に収束する。
差分時間差学習は局所時計に収束するが,大域時計に収束することを示す反例を構築した。
- 参考スコア(独自算出の注目度): 18.568799358278223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning rate is a critical component of reinforcement learning (RL). This work uses global and local clocks to distinguish two types of learning rates. The former is of the standard form $α_t$ that depends only on the time step $t$ (i.e., a global clock). The latter is of the form $α_{ν(S_t, t)}$, where $ν(s, t)$ counts the number of visits to state $s$ until time $t$ (i.e., a local clock). In discounted RL, an RL algorithm that is convergent with a local clock is always also convergent with a global clock, and vice versa. We are not aware of any counterexample. The key contribution of this work is to show that this nice correspondence breaks down in average-reward RL. Specifically, we construct a counterexample showing that although differential temporal difference learning is convergent with a local clock, it can diverge with a global clock. This counterexample closes the open problem in Wan et al. [2021], Blaser et al. [2026].
- Abstract(参考訳): 学習速度は強化学習(RL)の重要な要素である。
この研究は、グローバルクロックとローカルクロックを使用して、2種類の学習率を区別する。
前者は標準の$α_t$であり、これは時間ステップ$t$(つまりグローバルクロック)にのみ依存する。
後者は$α_{ν(S_t, t)}$の形で、$ν(s, t)$は時間$t$まで状態$s$への訪問回数をカウントする。
割引RLでは、局所時計に収束するRLアルゴリズムは、常に大域時計に収束する。
私たちは反例を知らない。
この研究の重要な貢献は、この優れた対応が平均逆 RL で破れることを示すことである。
具体的には,差分時間差学習は局所時計に収束するが,大域時計に収束することを示す反例を構築した。
この反例は、Wan et al [2021], Blaser et al [2026] の開問題を閉じる。
関連論文リスト
- Su-Schrieffer-Heeger model driven by sequences of two unitaries: periodic, quasiperiodic and random protocols [0.0]
2つのユニタリ演算子$U_1$と$U$の異なる組み合わせによるSu-Schrieffer-Heegerモデルの駆動効果について検討する。
連帯が周期的に, 準周期的に, ランダムに適用される場合について検討する。
論文 参考訳(メタデータ) (2025-12-02T07:03:30Z) - Single-qubit quantum gate at an arbitrary speed [0.7256915467062314]
強結合かつ超高速な状態下で単一量子ゲートの普遍的な集合を構築することが可能であることを示す。
中心周波数のスケーリング挙動は,長門時間系から短門時間系への遷移を観察する。
論文 参考訳(メタデータ) (2024-12-27T10:05:27Z) - Long-distance chronometric leveling with a portable optical clock [0.0]
我々は、干渉ファイバーリンクによる2つの光学格子クロックの比較により、457mathrmkm$で分離された2つの位置の地電位差を測定した。
年代測地量差の不確実性は、高さが27mathrmcm$の不確実性と等価である。
論文 参考訳(メタデータ) (2023-09-26T14:12:07Z) - A Unified Framework for Uniform Signal Recovery in Nonlinear Generative
Compressed Sensing [68.80803866919123]
非線形測定では、ほとんどの先行結果は一様ではない、すなわち、すべての$mathbfx*$に対してではなく、固定された$mathbfx*$に対して高い確率で保持される。
本フレームワークはGCSに1ビット/一様量子化観測と単一インデックスモデルを標準例として適用する。
また、指標集合が計量エントロピーが低い製品プロセスに対して、より厳密な境界を生み出す濃度不等式も開発する。
論文 参考訳(メタデータ) (2023-09-25T17:54:19Z) - Online Learning with Adversaries: A Differential-Inclusion Analysis [52.43460995467893]
我々は,完全に非同期なオンラインフェデレート学習のための観察行列ベースのフレームワークを提案する。
我々の主な結果は、提案アルゴリズムがほぼ確実に所望の平均$mu.$に収束することである。
新たな差分包摂型2時間スケール解析を用いて,この収束を導出する。
論文 参考訳(メタデータ) (2023-04-04T04:32:29Z) - Nonlocality under Computational Assumptions [51.020610614131186]
相関の集合が非局所であるとは、空間的分離な当事者がランダム性を共有し、局所的な操作を実行することによって再現できないことである。
ランダム性や量子時間計算によって再現できない局所的な(効率のよい)測定結果が存在することを示す。
論文 参考訳(メタデータ) (2023-03-03T16:53:30Z) - Convergence of Batch Asynchronous Stochastic Approximation With Applications to Reinforcement Learning [1.2966003263488448]
Reinforcement Learning (RL)のいくつかのアプリケーションでは、textitonlyの$theta_t$の1つのコンポーネントは、各$t$で更新される。
本稿では、 textbfBlock Asynchronous SA (BASA) について検討し、各ステップ $t$, textitsome で $theta_t$ のすべてのコンポーネントが更新される必要はない。
BASA の収束に十分な条件を提供し、$theta_t$ to の収束のテキスト化を証明します。
論文 参考訳(メタデータ) (2021-09-08T06:06:28Z) - Accelerated Gradient Tracking over Time-varying Graphs for Decentralized Optimization [59.65871549878937]
実用的な単一ループ加速勾配追跡には$O(fracgamma1-sigma_gamma)2sqrtfracLepsilon)$が必要であることを証明している。
我々の収束率は$O(frac1epsilon5/7)$と$O(fracLmu)5/7frac1(1-sigma)1.5logfrac1epsilon)$よりも大幅に改善した。
論文 参考訳(メタデータ) (2021-04-06T15:34:14Z) - The Geometry of Time in Topological Quantum Gravity of the Ricci Flow [41.94295877935867]
我々は、リッチフロー方程式の族に付随する非相対論的量子重力の研究を継続する。
この位相重力はコホモロジー型であり、$cal N=2$拡張BRST対称性を示す。
我々は、場が$g_ij$, $ni$, $n$であり、(i)$g_ij$の位相的変形と(ii)超局所非相対論的空間の極限からなる理論の標準的な一段階BRSTゲージ固定を実証する。
論文 参考訳(メタデータ) (2020-11-12T06:57:10Z) - Clocks without "time" in entangled-state experiments [0.0]
光の絡み合った状態は、分離した場所での光検出の間に測定可能な相関関係を示す。
これらの相関は、絡み合った状態の量子鍵分布に利用される。
時間によらず時計を動作させることによって,量子鍵分布の設計を一般化できることを示す。
論文 参考訳(メタデータ) (2020-04-23T15:42:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。