論文の概要: Regularized Centered Emphatic Temporal Difference Learning
- arxiv url: http://arxiv.org/abs/2605.04100v1
- Date: Sat, 02 May 2026 10:32:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-07 18:41:07.436516
- Title: Regularized Centered Emphatic Temporal Difference Learning
- Title(参考訳): 正規化中心型時間差学習
- Authors: Xingguo Chen, Chaohui Wu, Jinguo Ye, Chao Li, Shangdong Yang, Guang Yang, Tianyu Liang, Wenhao Wang,
- Abstract要約: 関数近似を用いたオフ政治時間差学習(TD)は、安定性、投影幾何学、分散制御の間の構造的トレードオフに直面している。
強調的TD(ETD)は、追従的強調により、非政治的な射影幾何学を改善するが、追従的トレースは高いばらつきを持つ。
本稿では,後続トレースを保存し,補助中心再帰のみを正規化する,強調時間差学習(RETD)を提案する。
- 参考スコア(独自算出の注目度): 14.415762410365106
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Off-policy temporal-difference (TD) learning with function approximation faces a structural tradeoff among stability, projection geometry, and variance control. Emphatic TD (ETD) improves the off-policy projection geometry through follow-on emphasis, but the follow-on trace can have high variance. We revisit this tradeoff through Bellman-error centering. Although centering naturally removes a common drift term from TD errors, we show that a naive centered emphatic extension introduces an auxiliary coupling that can destroy the positive-definiteness of the ETD key matrix. We propose \emph{Regularized Emphatic Temporal-Difference Learning} (RETD), which preserves the follow-on trace and regularizes only the auxiliary centering recursion, corresponding to lifting the lower-right block of the coupled key matrix from \(1\) to \(1+c\). We derive the RETD core matrix, prove convergence under a conservative sufficient regularization condition, and evaluate the method on diagnostic linear off-policy prediction tasks. The experiments show that RETD avoids the instability of naive centered emphatic learning, preserves favorable emphatic geometry, and exhibits a robust intermediate regime for the regularization parameter \(c\) across the diagnostics.
- Abstract(参考訳): 関数近似を用いたオフ政治時間差学習(TD)は、安定性、投影幾何学、分散制御の間の構造的トレードオフに直面している。
強調的TD(ETD)は、追従的強調により、非政治的な射影幾何学を改善するが、追従的トレースは高いばらつきを持つ。
我々はベルマン・エラーを中心にこのトレードオフを再考する。
中心化はTD誤差から共通のドリフト項を自然に除去するが,本手法では,ETD鍵行列の正定値を破壊できる補助結合を導入した。
本稿では、追従トレースを保存し、結合鍵行列の右下ブロックを1\から1+c\に引き上げることに対応する補助中心再帰のみを正則化する「emph{regularized Emphatic Temporal-Difference Learning}」(RETD)を提案する。
我々は、RETDコア行列を導出し、保守的な十分な正規化条件下で収束を証明し、線形オフポリシー予測タスクの診断方法を評価する。
実験の結果,RETDはナイーブ中心強調学習の不安定性を回避し,良好な強調幾何学を保ち,診断における正規化パラメータ \(c\) の頑健な中間状態を示すことがわかった。
関連論文リスト
- Geometry-Aware Semantic Reasoning for Training Free Video Anomaly Detection [9.337342114768942]
トレーニング不要なビデオ異常検出(VAD)は、教師付きアプローチに代わるスケーラブルな代替手段として最近登場した。
本稿では,自由なVADを学習するための幾何学的意味推論フレームワークMM-VADを紹介する。
MM-VADは、固定特徴比較よりも適応的なテスト時間推論として異常検出を再構成する。
論文 参考訳(メタデータ) (2026-03-10T09:28:37Z) - Less is More: Clustered Cross-Covariance Control for Offline RL [13.198112768636207]
オフライン強化学習における基本的な課題は、分散シフトである。
ローカルなリプレイパーティションへの更新を制限する分割バッファサンプリングを提案する。
また,各更新における共分散誘発バイアスを解消する,明確な勾配に基づく補正ペナルティも導入する。
論文 参考訳(メタデータ) (2026-01-28T16:55:04Z) - The Procrustean Bed of Time Series: The Optimization Bias of Point-wise Loss [53.542743390809356]
本稿では,最適化バイアス(EOB)の期待に関する第一原理解析を提案する。
時間列が決定論的で構造化されるほど、ポイントワイドの損失関数によるバイアスがより厳しくなる。
本稿では,DFTとDWTの両原理を同時に実現する具体的ソリューションを提案する。
論文 参考訳(メタデータ) (2025-12-21T06:08:22Z) - Geometric-Disentangelment Unlearning [106.99160454669902]
忘れたサンプルへの勾配は しばしば 保持された知識を傷つける
本稿では,GU(Geometric-disment Unlearning)を提案する。
本手法はプラグ・アンド・プレイであり,既存の勾配に基づくアンラーニング手法と併用することで副作用を軽減できる。
論文 参考訳(メタデータ) (2025-11-21T09:58:25Z) - Control-Augmented Autoregressive Diffusion for Data Assimilation [17.305296093966803]
本稿では,ARDMを軽量コントローラで拡張するアモールト化フレームワークを提案する。
我々はこの枠組みをカオス偏微分方程式(PDE)に対するデータ同化(DA)の文脈で評価する。
提案手法は,DA推論をオンザフライ修正による単一前方ロールアウトに還元し,推論中に高価な随伴計算や最適化を回避する。
論文 参考訳(メタデータ) (2025-10-08T04:37:32Z) - Ordinal Label-Distribution Learning with Constrained Asymmetric Priors for Imbalanced Retinal Grading [9.147336466586017]
糖尿病網膜症は、本質的には順序性で長い尾を持つ。
制約付き非対称先行ワッサースタインオートエンコーダ(CAP-WAE)を提案する。
CAP-WAEは、最先端の4重み付きカッパ、精度、マクロF1を一貫して達成する。
論文 参考訳(メタデータ) (2025-09-30T11:58:49Z) - ERIS: An Energy-Guided Feature Disentanglement Framework for Out-of-Distribution Time Series Classification [51.07970070817353]
理想的な時系列分類(TSC)は不変表現をキャプチャできるべきである。
現在の手法は、真に普遍的な特徴を分離するために必要な意味的な方向性を欠いている。
本稿では,シフト・ロバストネス・フレームワークのためのエンドツーエンドのエネルギー規則化情報を提案する。
論文 参考訳(メタデータ) (2025-08-19T12:13:41Z) - TAlignDiff: Automatic Tooth Alignment assisted by Diffusion-based Transformation Learning [16.84586622473531]
矯正治療は、咬合機能、顔の美学、患者の生活の質に大きく影響を及ぼす歯のアライメントに依存している。
本稿では,拡散型変換学習をサポートする新しい自動歯列アライメント手法TAlignDiffを提案する。
我々は、点クラウドベースの変換回帰と拡散ベースの変換モデリングを統一されたフレームワークに統合し、幾何学的制約と拡散洗練の間の双方向フィードバックを可能にする。
論文 参考訳(メタデータ) (2025-08-06T15:49:38Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。