論文の概要: Transitive RL: Value Learning via Divide and Conquer
- arxiv url: http://arxiv.org/abs/2510.22512v1
- Date: Sun, 26 Oct 2025 03:32:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.226291
- Title: Transitive RL: Value Learning via Divide and Conquer
- Title(参考訳): トランジティブRL: 分枝と結束による価値学習
- Authors: Seohong Park, Aditya Oberai, Pranav Atreya, Sergey Levine,
- Abstract要約: Transive Reinforcement Learning (TRL) は、分割・分散パラダイムに基づく新しい価値学習アルゴリズムである。
モンテカルロ法とは異なり、TRLは動的プログラミングを実行するため、高分散に苦しむ。
- 参考スコア(独自算出の注目度): 54.190627631246166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present Transitive Reinforcement Learning (TRL), a new value learning algorithm based on a divide-and-conquer paradigm. TRL is designed for offline goal-conditioned reinforcement learning (GCRL) problems, where the aim is to find a policy that can reach any state from any other state in the smallest number of steps. TRL converts a triangle inequality structure present in GCRL into a practical divide-and-conquer value update rule. This has several advantages compared to alternative value learning paradigms. Compared to temporal difference (TD) methods, TRL suffers less from bias accumulation, as in principle it only requires $O(\log T)$ recursions (as opposed to $O(T)$ in TD learning) to handle a length-$T$ trajectory. Unlike Monte Carlo methods, TRL suffers less from high variance as it performs dynamic programming. Experimentally, we show that TRL achieves the best performance in highly challenging, long-horizon benchmark tasks compared to previous offline GCRL algorithms.
- Abstract(参考訳): 本稿では,分割・分散パラダイムに基づく新しい価値学習アルゴリズムであるTransitionive Reinforcement Learning (TRL)を提案する。
TRLはオフラインのゴール条件強化学習(GCRL)問題のために設計されており、最小のステップで任意の状態に到達可能なポリシーを見つけることを目的としている。
TRLは、GCRLに存在する三角形の不等式構造を実用的な分割対コンカレント値更新規則に変換する。
これは、代替価値学習パラダイムと比較して、いくつかの利点がある。
時間差 (TD) 法と比較して、TRL はバイアスの蓄積に悩まされることが少なく、原則的には、長さ-T$軌道を扱うのに$O(T)$再帰(TDラーニングでは$O(T)$)しか必要としない。
モンテカルロ法とは異なり、TRLは動的プログラミングを実行するため、高分散に苦しむ。
実験により, TRLは, 従来のオフラインGCRLアルゴリズムと比較して, 高度に困難な, 長期にわたるベンチマークタスクにおいて, 最高の性能を達成できることを示した。
関連論文リスト
- $Q\sharp$: Provably Optimal Distributional RL for LLM Post-Training [63.602824642605775]
$Qsharp$ は KL 正規化 RL の値に基づくアルゴリズムで、最適な正規化 $Q$ 関数を使用して参照ポリシーを導出する。
この結果から,LLMのポストトレーニングに有効なアプローチとして$Qsharp$が注目され,性能と理論的保証が向上した。
論文 参考訳(メタデータ) (2025-02-27T21:43:00Z) - Is Value Learning Really the Main Bottleneck in Offline RL? [70.54708989409409]
ポリシー抽出アルゴリズムの選択はオフラインRLの性能とスケーラビリティに大きく影響することを示す。
本稿では,2つの簡易なテスト時ポリシー改善手法を提案し,これらの手法が性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-06-13T17:07:49Z) - RL$^3$: Boosting Meta Reinforcement Learning via RL inside RL$^2$ [12.111848705677142]
本稿では,従来のRLによるタスクごとの学習をMeta-RLに入力するハイブリッドアプローチであるRL$3$を提案する。
RL$3$は、RL$2$よりも長期で累積的な報酬を得られる一方で、メタトレーニング時間を大幅に削減し、アウト・オブ・ディストリビューション・タスクをより一般化することを示す。
論文 参考訳(メタデータ) (2023-06-28T04:16:16Z) - Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。
標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。
本研究では, MRL の頑健な目標を制御レベルで定義する。
ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文 参考訳(メタデータ) (2023-01-26T14:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。