論文の概要: Temporal Difference Learning with Constrained Initial Representations
- arxiv url: http://arxiv.org/abs/2602.11800v1
- Date: Thu, 12 Feb 2026 10:27:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.770021
- Title: Temporal Difference Learning with Constrained Initial Representations
- Title(参考訳): 制約付き初期表現を用いた時間差学習
- Authors: Jiafei Lyu, Jingwen Yang, Zhongjian Qiao, Runze Liu, Zeyuan Liu, Deheng Ye, Zongqing Lu, Xiu Li,
- Abstract要約: このような制約を満たすために、初期層にTanh関数を導入する。
本稿では,3つのコンポーネントから構成されるCIRをタグ付けしたConstrained Initial Representationsフレームワークを提案する。
実験結果から,CIRは多くの連続制御タスクにおいて高い性能を示すことが示された。
- 参考スコア(独自算出の注目度): 41.31941267662611
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, there have been numerous attempts to enhance the sample efficiency of off-policy reinforcement learning (RL) agents when interacting with the environment, including architecture improvements and new algorithms. Despite these advances, they overlook the potential of directly constraining the initial representations of the input data, which can intuitively alleviate the distribution shift issue and stabilize training. In this paper, we introduce the Tanh function into the initial layer to fulfill such a constraint. We theoretically unpack the convergence property of the temporal difference learning with the Tanh function under linear function approximation. Motivated by theoretical insights, we present our Constrained Initial Representations framework, tagged CIR, which is made up of three components: (i) the Tanh activation along with normalization methods to stabilize representations; (ii) the skip connection module to provide a linear pathway from the shallow layer to the deep layer; (iii) the convex Q-learning that allows a more flexible value estimate and mitigates potential conservatism. Empirical results show that CIR exhibits strong performance on numerous continuous control tasks, even being competitive or surpassing existing strong baseline methods.
- Abstract(参考訳): 近年、アーキテクチャの改善や新しいアルゴリズムなど、環境との相互作用において、外部強化学習(RL)エージェントのサンプル効率を向上する試みが数多く行われている。
これらの進歩にもかかわらず、彼らは入力データの初期表現を直接制約する可能性を見落とし、直感的に分布シフト問題を緩和し、訓練を安定させることができる。
本稿では,この制約を満たすために,初期層にTanh関数を導入する。
理論的には、線形関数近似の下でのTanh関数による時間差分学習の収束特性を解き放つ。
理論的な洞察により、我々は3つの構成要素から構成される制約付き初期表現フレームワーク、タグ付きCIRを提示する。
(i)表現を安定化させる正規化法とともにTanh活性化
二 浅層から深層への直線経路を提供するスキップ接続モジュール
三 より柔軟な価値推定を可能にし、潜在的な保守主義を緩和する凸 Q-ラーニング。
実証実験の結果、CIRは多数の連続制御タスクにおいて、競争力や既存の強力なベースライン手法を超越しても、強い性能を示すことが示された。
関連論文リスト
- Provable Benefit of Curriculum in Transformer Tree-Reasoning Post-Training [76.12556589212666]
学習後のカリキュラムは指数関数的複雑性のボトルネックを回避していることを示す。
結果のみの報酬信号の下では、強化学習の微調整は、サンプルの複雑さを高い精度で達成する。
カリキュラムを意識したクエリにより、報奨託書の呼び出しとサンプリングコストの両方を指数関数的に削減するテストタイムスケーリングの保証を確立する。
論文 参考訳(メタデータ) (2025-11-10T18:29:54Z) - Learning Upper Lower Value Envelopes to Shape Online RL: A Principled Approach [2.9690567171043725]
本研究は、この文脈における価値エンベロープの学習と適用方法に焦点を当てる。
第一段階はオフラインデータを用いて値関数の上下境界を導出し、第二段階は学習した境界をオンラインアルゴリズムに組み込む。
論文 参考訳(メタデータ) (2025-10-22T12:32:52Z) - In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。
この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文 参考訳(メタデータ) (2025-03-17T02:00:49Z) - CODE-CL: Conceptor-Based Gradient Projection for Deep Continual Learning [6.738409533239947]
深層ニューラルネットワークは、タスクを逐次学習する際に破滅的な忘れに苦しむ。
最近のアプローチでは、勾配投影を用いた部分空間の更新が制限されている。
本稿では,Deep Continual Learning (CODE-CL) のための概念ベース勾配予測法を提案する。
論文 参考訳(メタデータ) (2024-11-21T22:31:06Z) - Efficient and Flexible Neural Network Training through Layer-wise Feedback Propagation [49.44309457870649]
レイヤワイドフィードバックフィードバック(LFP)は、ニューラルネットワークのような予測器のための新しいトレーニング原則である。
LFPはそれぞれの貢献に基づいて個々のニューロンに報酬を分解する。
提案手法は,ネットワークの有用な部分と有害な部分の弱体化を両立させる手法である。
論文 参考訳(メタデータ) (2023-08-23T10:48:28Z) - An Empirical Study of Implicit Regularization in Deep Offline RL [44.62587507925864]
3つのオフラインRLデータセットにおける有効ランクと性能の関係について検討する。
暗黙の正規化が学習力学に与える影響を説明する学習の3つの段階を同定する。
論文 参考訳(メタデータ) (2022-07-05T15:07:31Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。