論文の概要: Horizon Reduction as Information Loss in Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.00831v1
- Date: Thu, 25 Dec 2025 07:41:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-11 18:48:17.534725
- Title: Horizon Reduction as Information Loss in Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習における情報損失としての水平化
- Authors: Uday Kumar Nidadala, Venkata Bhumika Guthi,
- Abstract要約: 地平線低減は、オフラインの強化学習において、基本的かつ発見不可能な情報損失を引き起こす可能性があることを示す。
固定長軌道セグメントからの学習として地平線低減を定式化し、このパラダイムの下では、最適政策が準最適政策と統計的に区別できないことを証明する。
本研究は,地平線低減を安全に行うために必要な条件を確立し,アルゴリズムの改良だけでは克服できない本質的な限界を強調した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Horizon reduction is a common design strategy in offline reinforcement learning (RL), used to mitigate long-horizon credit assignment, improve stability, and enable scalable learning through truncated rollouts, windowed training, or hierarchical decomposition (Levine et al., 2020; Prudencio et al., 2023; Park et al., 2025). Despite recent empirical evidence that horizon reduction can improve scaling on challenging offline RL benchmarks, its theoretical implications remain underdeveloped (Park et al., 2025). In this paper, we show that horizon reduction can induce fundamental and irrecoverable information loss in offline RL. We formalize horizon reduction as learning from fixed-length trajectory segments and prove that, under this paradigm and any learning interface restricted to fixed-length trajectory segments, optimal policies may be statistically indistinguishable from suboptimal ones even with infinite data and perfect function approximation. Through a set of minimal counterexample Markov decision processes (MDPs), we identify three distinct structural failure modes: (i) prefix indistinguishability leading to identifiability failure, (ii) objective misspecification induced by truncated returns, and (iii) offline dataset support and representation aliasing. Our results establish necessary conditions under which horizon reduction can be safe and highlight intrinsic limitations that cannot be overcome by algorithmic improvements alone, complementing algorithmic work on conservative objectives and distribution shift that addresses a different axis of offline RL difficulty (Fujimoto et al., 2019; Kumar et al., 2020; Gulcehre et al., 2020).
- Abstract(参考訳): 水平縮小は、オフライン強化学習(RL)における一般的な設計戦略であり、長期のクレジット割り当てを緩和し、安定性を改善し、切り捨てられたロールアウト、ウィンドウ付きトレーニング、階層的分解(Levine et al , 2020; Prudencio et al , 2023; Park et al , 2025)を通じてスケーラブルな学習を可能にする。
最近の実証的な証拠では、地平線減少は挑戦的なオフラインRLベンチマークのスケーリングを改善することができるが、その理論的意味は未発達のままである(Park et al , 2025)。
本稿では,オフラインRLにおける地平線低減により,基本的かつ発見不可能な情報損失が生じることを示す。
我々は、固定長軌道セグメントからの学習として地平線低減を定式化し、このパラダイムと、固定長軌道セグメントに制限された学習インタフェースにより、無限のデータと完全関数近似であっても、最適ポリシーは統計的に最適値と区別できないことを証明した。
最小限の反例であるマルコフ決定プロセス(MDP)を通じて、3つの異なる構造的障害モードを識別する。
一 識別不能につながる前置詞の識別不能
二 逃走した返却によって引き起こされた客観的な不特定、及び
(iii)オフラインのデータセットのサポートと表現エイリアス。
本研究は, 地平線低減が安全であるために必要な条件を確立し, アルゴリズムの改良だけでは克服できない本質的な限界を強調し, オフラインRLの難易度が異なる軸に対処する保守的目標と分布シフトのアルゴリズム的作業を補完する(Fujimoto et al , 2019; Kumar et al , 2020; Gulcehre et al , 2020)。
関連論文リスト
- Horizon Reduction Makes RL Scalable [92.7032162501681]
オフライン強化学習(RL)アルゴリズムのスケーラビリティについて検討する。
通常のオフラインRLデータセットの最大1000倍のデータセットを使用します。
オフラインRLのスケール不足の主な原因は地平線にあることを示す。
論文 参考訳(メタデータ) (2025-06-04T17:06:54Z) - State-Constrained Offline Reinforcement Learning [9.38848713730931]
我々は、データセットの状態分布にのみ焦点をあてた新しいフレームワークである、状態制約付きオフラインRLを紹介した。
また、D4RLベンチマークデータセット上で最先端のパフォーマンスを実現するディープラーニングアルゴリズムであるStaCQについても紹介する。
論文 参考訳(メタデータ) (2024-05-23T09:50:04Z) - Pessimistic Nonlinear Least-Squares Value Iteration for Offline Reinforcement Learning [53.97335841137496]
非線形関数近似を用いたオフラインRLにおけるPNLSVI(Pessimistic Least-Square Value Iteration)と呼ばれるオラクル効率のアルゴリズムを提案する。
本アルゴリズムは,関数クラスの複雑性に強く依存する後悔境界を享受し,線形関数近似に特化して最小限のインスタンス依存後悔を実現する。
論文 参考訳(メタデータ) (2023-10-02T17:42:01Z) - MAHALO: Unifying Offline Reinforcement Learning and Imitation Learning
from Observations [43.9636309593499]
我々は、観測からオフライン政策学習(PLfO)と呼ばれる、シーケンシャルな意思決定のための新しいパラダイムについて研究する。
我々は、$textbfM$odality-agnostic $textbfA$dversarial $textbfH$ypothesis $textbfA$daptation for $textbfL$earning from $textbfO$bservation (MAHALO)と呼ばれるオフラインPLfOに対する一般的なアプローチを提示します。
論文 参考訳(メタデータ) (2023-03-30T05:27:46Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Offline Stochastic Shortest Path: Learning, Evaluation and Towards
Optimality [57.91411772725183]
本稿では,状態空間と動作空間が有限である場合のオフライン最短経路問題について考察する。
オフラインポリシ評価(OPE)とオフラインポリシ学習タスクの両方を扱うための,シンプルな値ベースアルゴリズムを設計する。
これらの単純なアルゴリズムの解析は、極小値に近い最悪のケース境界を示唆する強いインスタンス依存境界をもたらす。
論文 参考訳(メタデータ) (2022-06-10T07:44:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。