論文の概要: Transitive RL: Value Learning via Divide and Conquer
- arxiv url: http://arxiv.org/abs/2510.22512v1
- Date: Sun, 26 Oct 2025 03:32:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.226291
- Title: Transitive RL: Value Learning via Divide and Conquer
- Title(参考訳): トランジティブRL: 分枝と結束による価値学習
- Authors: Seohong Park, Aditya Oberai, Pranav Atreya, Sergey Levine,
- Abstract要約: Transive Reinforcement Learning (TRL) は、分割・分散パラダイムに基づく新しい価値学習アルゴリズムである。
モンテカルロ法とは異なり、TRLは動的プログラミングを実行するため、高分散に苦しむ。
- 参考スコア(独自算出の注目度): 54.190627631246166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present Transitive Reinforcement Learning (TRL), a new value learning algorithm based on a divide-and-conquer paradigm. TRL is designed for offline goal-conditioned reinforcement learning (GCRL) problems, where the aim is to find a policy that can reach any state from any other state in the smallest number of steps. TRL converts a triangle inequality structure present in GCRL into a practical divide-and-conquer value update rule. This has several advantages compared to alternative value learning paradigms. Compared to temporal difference (TD) methods, TRL suffers less from bias accumulation, as in principle it only requires $O(\log T)$ recursions (as opposed to $O(T)$ in TD learning) to handle a length-$T$ trajectory. Unlike Monte Carlo methods, TRL suffers less from high variance as it performs dynamic programming. Experimentally, we show that TRL achieves the best performance in highly challenging, long-horizon benchmark tasks compared to previous offline GCRL algorithms.
- Abstract(参考訳): 本稿では,分割・分散パラダイムに基づく新しい価値学習アルゴリズムであるTransitionive Reinforcement Learning (TRL)を提案する。
TRLはオフラインのゴール条件強化学習(GCRL)問題のために設計されており、最小のステップで任意の状態に到達可能なポリシーを見つけることを目的としている。
TRLは、GCRLに存在する三角形の不等式構造を実用的な分割対コンカレント値更新規則に変換する。
これは、代替価値学習パラダイムと比較して、いくつかの利点がある。
時間差 (TD) 法と比較して、TRL はバイアスの蓄積に悩まされることが少なく、原則的には、長さ-T$軌道を扱うのに$O(T)$再帰(TDラーニングでは$O(T)$)しか必要としない。
モンテカルロ法とは異なり、TRLは動的プログラミングを実行するため、高分散に苦しむ。
実験により, TRLは, 従来のオフラインGCRLアルゴリズムと比較して, 高度に困難な, 長期にわたるベンチマークタスクにおいて, 最高の性能を達成できることを示した。
関連論文リスト
- RAPID: An Efficient Reinforcement Learning Algorithm for Small Language Models [27.643632808936403]
強化学習 (Reinforcement Learning, RL) は, 数学やコーディングといった目的とする課題を解決するために, 小型言語モデル (SLM) を微調整するための有望な戦略として登場した。
RLアルゴリズムはリソース集約的であり、トレーニングにかなりの時間がかかる傾向にある。
本稿では,RLのランニング時間を大幅に削減できる新しいRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-10-03T20:58:49Z) - RoiRL: Efficient, Self-Supervised Reasoning with Offline Iterative Reinforcement Learning [4.311472216447055]
強化学習は、大規模言語モデル(LLM)における推論の改善の中心である
本稿では,RoiRL: オフライン反復強化学習による推論を提案する。
我々は,RoiRLの列車の速度が2.5倍に向上し,推理ベンチマークにおいてTTRLを一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-10-03T10:59:26Z) - $Q\sharp$: Provably Optimal Distributional RL for LLM Post-Training [63.602824642605775]
$Qsharp$ は KL 正規化 RL の値に基づくアルゴリズムで、最適な正規化 $Q$ 関数を使用して参照ポリシーを導出する。
この結果から,LLMのポストトレーニングに有効なアプローチとして$Qsharp$が注目され,性能と理論的保証が向上した。
論文 参考訳(メタデータ) (2025-02-27T21:43:00Z) - Is Value Learning Really the Main Bottleneck in Offline RL? [70.54708989409409]
ポリシー抽出アルゴリズムの選択はオフラインRLの性能とスケーラビリティに大きく影響することを示す。
本稿では,2つの簡易なテスト時ポリシー改善手法を提案し,これらの手法が性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-06-13T17:07:49Z) - Hybrid Inverse Reinforcement Learning [34.793570631021005]
逆強化学習による模倣学習は 両刃剣である。
我々は、不要な探索を抑えるために、ハイブリッドRL(オンラインデータとエキスパートデータの混合に関するトレーニング)の使用を提案する。
モデルフリーとモデルベースハイブリッド逆RLアルゴリズムの両方を導出し、強力なポリシー性能を保証する。
論文 参考訳(メタデータ) (2024-02-13T23:29:09Z) - RL$^3$: Boosting Meta Reinforcement Learning via RL inside RL$^2$ [12.111848705677142]
本稿では,従来のRLによるタスクごとの学習をMeta-RLに入力するハイブリッドアプローチであるRL$3$を提案する。
RL$3$は、RL$2$よりも長期で累積的な報酬を得られる一方で、メタトレーニング時間を大幅に削減し、アウト・オブ・ディストリビューション・タスクをより一般化することを示す。
論文 参考訳(メタデータ) (2023-06-28T04:16:16Z) - Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。
標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。
本研究では, MRL の頑健な目標を制御レベルで定義する。
ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文 参考訳(メタデータ) (2023-01-26T14:54:39Z) - A Tutorial on Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - RL-DARTS: Differentiable Architecture Search for Reinforcement Learning [62.95469460505922]
我々は、強化学習(RL)における微分可能なアーキテクチャ探索(DARTS)の最初の応用の1つであるRL-DARTSを紹介する。
画像エンコーダをDARTSスーパーネットに置き換えることにより、検索方法はサンプリング効率が高く、余分な計算資源が最小限必要であり、また、既存のコードに小さな変更を加える必要がなく、オフ・ポリティクスとオン・ポリティクスのRLアルゴリズムとも互換性がある。
スーパーネットはより優れたセルを徐々に学習し、手作業で設計したポリシーに対して高い競争力を持つ代替アーキテクチャへとつながり、RLポリシーの以前の設計選択も検証できることを示す。
論文 参考訳(メタデータ) (2021-06-04T03:08:43Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。