Fugu-MT 論文翻訳(概要): Relating Reinforcement Learning to Dynamic Programming-Based Planning

論文の概要: Relating Reinforcement Learning to Dynamic Programming-Based Planning

arxiv url: http://arxiv.org/abs/2603.07844v1
Date: Sun, 08 Mar 2026 23:28:23 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 08:17:42.077178
Title: Relating Reinforcement Learning to Dynamic Programming-Based Planning
Title（参考訳）: 動的プログラミングに基づく計画への強化学習の関連
Authors: Filip V. Georgiev, Kalle G. Timperi, Başak Sakçak, Steven M. LaValle,
Abstract要約: 本稿では、最適計画と強化学習(RL)のギャップを埋める。 RLのデランドマイズされたバージョンは、値とDijkstraのアルゴリズムのパフォーマンス比較を得るために開発、分析、実装されている。
参考スコア（独自算出の注目度）: 1.814099487268094
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper bridges some of the gap between optimal planning and reinforcement learning (RL), both of which share roots in dynamic programming applied to sequential decision making or optimal control. Whereas planning typically favors deterministic models, goal termination, and cost minimization, RL tends to favor stochastic models, infinite-horizon discounting, and reward maximization in addition to learning-related parameters such as the learning rate and greediness factor. A derandomized version of RL is developed, analyzed, and implemented to yield performance comparisons with value iteration and Dijkstra's algorithm using simple planning models. Next, mathematical analysis shows: 1) conditions under which cost minimization and reward maximization are equivalent, 2) conditions for equivalence of single-shot goal termination and infinite-horizon episodic learning, and 3) conditions under which discounting causes goal achievement to fail. The paper then advocates for defining and optimizing truecost, rather than inserting arbitrary parameters to guide operations. Performance studies are then extended to the stochastic case, using planning-oriented criteria and comparing value iteration to RL with learning rates and greediness factors.
Abstract（参考訳）: 本稿では、動的プログラミングのルーツを共有した最適計画と強化学習(RL)のギャップを、逐次決定や最適制御に適用する。計画では決定論的モデル、ゴール終了、コスト最小化が好まれるが、RLは学習率や欲求率などの学習関連パラメータに加えて確率的モデル、無限水平割引、報酬最大化が好まれる。 RLのデランドマイズされたバージョンは、単純な計画モデルを用いて、値反復とDijkstraのアルゴリズムとの性能比較を行い、分析し、実装する。次に、数学的分析が示す。 1) 費用の最小化及び報酬の最大化が同等である条件 2【単発ゴール終了と無限水平エピソード学習の等価条件】 3)割引がゴール達成を失敗させる条件。この論文は、操作をガイドするために任意のパラメータを挿入するのではなく、真のコストの定義と最適化を提唱する。性能研究は、計画指向の基準を用いて確率的ケースに拡張され、価値反復とRLを学習率と欲求性要因と比較する。

関連論文リスト

Adaptive Test-Time Reasoning via Reward-Guided Dual-Phase Search [62.1546099504045]
本稿では、推論を計画と実行に分離する二相テストタイムスケーリングフレームワークを提案する。具体的には、推論軌跡を分解し、各フェーズの報酬モデルを構築し、探索者が個別に計画と実行を探索、実行できるようにする。数学的推論とコード生成ベンチマークの両方の実験により、我々の手法は計算の冗長性を低減しつつ、常に精度を向上することを示した。
論文参考訳（メタデータ） (2025-09-29T19:27:23Z)
Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models [79.2162092822111]
我々は,一連のナビゲーションタスクにおいて,強化学習(RL)と制御に基づく手法を体系的に評価する。我々は、JEPA(Joint Embedding Predictive Architecture)を使用して、潜在ダイナミクスモデルを使用し、それを計画に使用します。その結果,モデルベースプランニングではレイアウトが不明瞭になるのに対して,モデルフリーのRLは高品質なデータから恩恵を受けることがわかった。
論文参考訳（メタデータ） (2025-02-20T18:39:41Z)
Learning to Plan & Reason for Evaluation with Thinking-LLM-as-a-Judge [78.28188747489769]
そこで我々は,Thinking-LLM-as-a-Judgeの優先最適化アルゴリズムであるEvalPlannerを提案する。自己学習ループでは、EvalPlannerは、合成的に構築された評価計画と実行よりも反復的に最適化する。提案手法はRewardBenchにおける生成報酬モデルのための新しい最先端性能を実現する。
論文参考訳（メタデータ） (2025-01-30T02:21:59Z)
Sublinear Regret for a Class of Continuous-Time Linear-Quadratic Reinforcement Learning Problems [10.404992912881601]
拡散に対する連続時間線形四元数(LQ)制御のクラスに対する強化学習(RL)について検討した。モデルパラメータの知識にも,その推定にも依存しないモデルフリーアプローチを適用し,RLアルゴリズムを設計して,適切なポリシパラメータを直接学習する。
論文参考訳（メタデータ） (2024-07-24T12:26:21Z)
Maximize to Explore: One Objective Function Fusing Estimation, Planning, and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。 textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文参考訳（メタデータ） (2023-05-29T17:25:26Z)
Human-in-the-loop: Provably Efficient Preference-based Reinforcement Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-05-23T09:03:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。