論文の概要: Horizon Reduction as Information Loss in Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.00831v1
- Date: Thu, 25 Dec 2025 07:41:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-11 18:48:17.534725
- Title: Horizon Reduction as Information Loss in Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習における情報損失としての水平化
- Authors: Uday Kumar Nidadala, Venkata Bhumika Guthi,
- Abstract要約: 地平線低減は、オフラインの強化学習において、基本的かつ発見不可能な情報損失を引き起こす可能性があることを示す。
固定長軌道セグメントからの学習として地平線低減を定式化し、このパラダイムの下では、最適政策が準最適政策と統計的に区別できないことを証明する。
本研究は,地平線低減を安全に行うために必要な条件を確立し,アルゴリズムの改良だけでは克服できない本質的な限界を強調した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Horizon reduction is a common design strategy in offline reinforcement learning (RL), used to mitigate long-horizon credit assignment, improve stability, and enable scalable learning through truncated rollouts, windowed training, or hierarchical decomposition (Levine et al., 2020; Prudencio et al., 2023; Park et al., 2025). Despite recent empirical evidence that horizon reduction can improve scaling on challenging offline RL benchmarks, its theoretical implications remain underdeveloped (Park et al., 2025). In this paper, we show that horizon reduction can induce fundamental and irrecoverable information loss in offline RL. We formalize horizon reduction as learning from fixed-length trajectory segments and prove that, under this paradigm and any learning interface restricted to fixed-length trajectory segments, optimal policies may be statistically indistinguishable from suboptimal ones even with infinite data and perfect function approximation. Through a set of minimal counterexample Markov decision processes (MDPs), we identify three distinct structural failure modes: (i) prefix indistinguishability leading to identifiability failure, (ii) objective misspecification induced by truncated returns, and (iii) offline dataset support and representation aliasing. Our results establish necessary conditions under which horizon reduction can be safe and highlight intrinsic limitations that cannot be overcome by algorithmic improvements alone, complementing algorithmic work on conservative objectives and distribution shift that addresses a different axis of offline RL difficulty (Fujimoto et al., 2019; Kumar et al., 2020; Gulcehre et al., 2020).
- Abstract(参考訳): 水平縮小は、オフライン強化学習(RL)における一般的な設計戦略であり、長期のクレジット割り当てを緩和し、安定性を改善し、切り捨てられたロールアウト、ウィンドウ付きトレーニング、階層的分解(Levine et al , 2020; Prudencio et al , 2023; Park et al , 2025)を通じてスケーラブルな学習を可能にする。
最近の実証的な証拠では、地平線減少は挑戦的なオフラインRLベンチマークのスケーリングを改善することができるが、その理論的意味は未発達のままである(Park et al , 2025)。
本稿では,オフラインRLにおける地平線低減により,基本的かつ発見不可能な情報損失が生じることを示す。
我々は、固定長軌道セグメントからの学習として地平線低減を定式化し、このパラダイムと、固定長軌道セグメントに制限された学習インタフェースにより、無限のデータと完全関数近似であっても、最適ポリシーは統計的に最適値と区別できないことを証明した。
最小限の反例であるマルコフ決定プロセス(MDP)を通じて、3つの異なる構造的障害モードを識別する。
一 識別不能につながる前置詞の識別不能
二 逃走した返却によって引き起こされた客観的な不特定、及び
(iii)オフラインのデータセットのサポートと表現エイリアス。
本研究は, 地平線低減が安全であるために必要な条件を確立し, アルゴリズムの改良だけでは克服できない本質的な限界を強調し, オフラインRLの難易度が異なる軸に対処する保守的目標と分布シフトのアルゴリズム的作業を補完する(Fujimoto et al , 2019; Kumar et al , 2020; Gulcehre et al , 2020)。
関連論文リスト
- A universal linearized subspace refinement framework for neural networks [1.636137854123538]
本稿では、LSR(Linearized Subspace Refinement)を導入し、LSR(Linearized Subspace Refinement)とLSR(Linearized Subspace Refinement)について述べる。
LSRは、標準学習された解よりも精度が大幅に向上した洗練された予測器を得る。
複合損失構造に関する問題に対しては、一発LSRと教師付き非線形アライメントを交互に行うIterative LSRを導入する。
論文 参考訳(メタデータ) (2026-01-20T14:03:28Z) - Rotation Control Unlearning: Quantifying and Controlling Continuous Unlearning for LLM with The Cognitive Rotation Space [66.51378598755933]
本研究では,学習継続過程における学習度を定量化し,制御する,回転制御アンラーニング(RCU)と呼ばれる新しい手法を提案する。
歪対称損失は、回転角の変化が連続的未学習過程をシミュレートできる認知回転空間の存在を構築するように設計されている。
複数のデータセットに対する実験により、保持されたデータセットを持たないメソッドがSOTA性能を達成することを確認した。
論文 参考訳(メタデータ) (2025-09-30T03:59:29Z) - Horizon Reduction Makes RL Scalable [92.7032162501681]
オフライン強化学習(RL)アルゴリズムのスケーラビリティについて検討する。
通常のオフラインRLデータセットの最大1000倍のデータセットを使用します。
オフラインRLのスケール不足の主な原因は地平線にあることを示す。
論文 参考訳(メタデータ) (2025-06-04T17:06:54Z) - Zero loss guarantees and explicit minimizers for generic overparametrized Deep Learning networks [1.189367612437469]
勾配降下を起こすことなくゼロ損失最小化器を明示的に構築する。
以上の結果から,低パラメタライズドDLと過パラメタライズドDLにおけるゼロ損失到達率の2分断に関する重要な側面が明らかとなった。
論文 参考訳(メタデータ) (2025-02-19T21:31:05Z) - Is Behavior Cloning All You Need? Understanding Horizon in Imitation Learning [26.53136644321385]
シミュレーション学習(Imitation Learning, IL)は、実演から学ぶことによって、連続的な意思決定タスクにおいて専門家の行動を模倣することを目的としている。
累積ペイオフの範囲が制御されるたびに、オフラインILにおいて水平非依存のサンプル複雑性を実現することができることを示す。
決定的,定常的な政策を特化して,オンラインILとオフラインILの差が従来考えられていたよりも小さいことを示す。
論文 参考訳(メタデータ) (2024-07-20T23:31:56Z) - State-Constrained Offline Reinforcement Learning [9.38848713730931]
我々は、データセットの状態分布にのみ焦点をあてた新しいフレームワークである、状態制約付きオフラインRLを紹介した。
また、D4RLベンチマークデータセット上で最先端のパフォーマンスを実現するディープラーニングアルゴリズムであるStaCQについても紹介する。
論文 参考訳(メタデータ) (2024-05-23T09:50:04Z) - Pessimistic Nonlinear Least-Squares Value Iteration for Offline Reinforcement Learning [53.97335841137496]
非線形関数近似を用いたオフラインRLにおけるPNLSVI(Pessimistic Least-Square Value Iteration)と呼ばれるオラクル効率のアルゴリズムを提案する。
本アルゴリズムは,関数クラスの複雑性に強く依存する後悔境界を享受し,線形関数近似に特化して最小限のインスタンス依存後悔を実現する。
論文 参考訳(メタデータ) (2023-10-02T17:42:01Z) - MAHALO: Unifying Offline Reinforcement Learning and Imitation Learning
from Observations [43.9636309593499]
我々は、観測からオフライン政策学習(PLfO)と呼ばれる、シーケンシャルな意思決定のための新しいパラダイムについて研究する。
我々は、$textbfM$odality-agnostic $textbfA$dversarial $textbfH$ypothesis $textbfA$daptation for $textbfL$earning from $textbfO$bservation (MAHALO)と呼ばれるオフラインPLfOに対する一般的なアプローチを提示します。
論文 参考訳(メタデータ) (2023-03-30T05:27:46Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Offline Stochastic Shortest Path: Learning, Evaluation and Towards
Optimality [57.91411772725183]
本稿では,状態空間と動作空間が有限である場合のオフライン最短経路問題について考察する。
オフラインポリシ評価(OPE)とオフラインポリシ学習タスクの両方を扱うための,シンプルな値ベースアルゴリズムを設計する。
これらの単純なアルゴリズムの解析は、極小値に近い最悪のケース境界を示唆する強いインスタンス依存境界をもたらす。
論文 参考訳(メタデータ) (2022-06-10T07:44:56Z) - Reset-Free Lifelong Learning with Skill-Space Planning [105.00539596788127]
非分離寿命RLのためのアルゴリズムフレームワークであるLifelong Skill Planning (LiSP)を提案する。
LiSPは、本質的な報酬を用いて教師なしの方法でスキルを学び、学習力学モデルを用いて学習スキルを計画する。
我々は,lispが長期計画に成功し,非定常環境や非定型環境においても壊滅的な失敗を回避できるエージェントを学習できることを実証的に示す。
論文 参考訳(メタデータ) (2020-12-07T09:33:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。