Fugu-MT 論文翻訳(概要): On the Search for Feedback in Reinforcement Learning

論文の概要: On the Search for Feedback in Reinforcement Learning

arxiv url: http://arxiv.org/abs/2002.09478v6
Date: Thu, 24 Mar 2022 01:29:19 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-30 00:41:49.277347
Title: On the Search for Feedback in Reinforcement Learning
Title（参考訳）: 強化学習におけるフィードバック探索について
Authors: Ran Wang, Karthikeya S. Parunandi, Aayushman Sharma, Raman Goyal, Suman Chakravorty
Abstract要約: 我々は,オープンループシーケンスと関連する最適線形フィードバック法則からなる局所的なフィードバック表現の探索を提唱する。この代替手法は, 高い効率のトレーニングを実現し, 得られた回答は再現可能で信頼性が高く, 得られたクローズド性能は, 最先端のRL技術よりも優れていることを示す。
参考スコア（独自算出の注目度）: 6.29295842374861
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The problem of Reinforcement Learning (RL) in an unknown nonlinear dynamical system is equivalent to the search for an optimal feedback law utilizing the simulations/ rollouts of the dynamical system. Most RL techniques search over a complex global nonlinear feedback parametrization making them suffer from high training times as well as variance. Instead, we advocate searching over a local feedback representation consisting of an open-loop sequence, and an associated optimal linear feedback law completely determined by the open-loop. We show that this alternate approach results in highly efficient training, the answers obtained are repeatable and hence reliable, and the resulting closed performance is superior to global state-of-the-art RL techniques. Finally, if we replan, whenever required, which is feasible due to the fast and reliable local solution, it allows us to recover global optimality of the resulting feedback law.
Abstract（参考訳）: 未知の非線形力学系における強化学習(RL)の問題は、力学系のシミュレーション・ロールアウトを利用した最適フィードバック法則の探索と等価である。ほとんどのRL技術は、複雑な大域的非線形フィードバックパラメトリゼーションを探索し、高いトレーニング時間とばらつきに悩まされる。その代わり、開ループ列からなる局所フィードバック表現と、開ループによって完全に決定される関連する最適線形フィードバック則の探索を提唱する。この代替手法は, 高い効率のトレーニングを行ない, 得られた回答は再現性が高く信頼性が高く, 得られたクローズド性能は, 最先端のRL技術よりも優れていることを示す。最後に, 高速かつ信頼性の高い局所解法により, 必要なときにいつでも再計画し, フィードバック法則のグローバルな最適性を取り戻すことができる。

関連論文リスト

Provably Efficient RLHF Pipeline: A Unified View from Contextual Bandits [59.30310692855397]
本稿では,RLHFパイプラインをコンテキスト的帯域幅の観点から統一したフレームワークを提案する。 RLHFプロセスは、(ポスト-)トレーニングとデプロイメントの2つのステージに分解します。次に,各ステージごとに新しいアルゴリズムを開発し,統計的および計算効率の両面で有意な改善を示す。
論文参考訳（メタデータ） (2025-02-11T02:36:01Z)
Solving the Inverse Alignment Problem for Efficient RLHF [0.0]
言語モデルトレーニングにおける「逆アライメント問題」を定義する。本研究では,周期的に凍結されたポリシーに沿ったオフライン嗜好データセットのサブセットに対して,報酬モデルを繰り返し微調整することにより,バニラRLHFを改善するか否かを検討する。
論文参考訳（メタデータ） (2024-12-13T19:47:38Z)
Umbrella Reinforcement Learning -- computationally efficient tool for hard non-linear problems [0.0]
このアプローチは、ポリシー勾配を用いてニューラルネットワークに基づいて実現される。計算効率と実装の普遍性により、全ての最先端のアルゴリズムが利用可能であり、スパース報酬、状態トラップ、端末状態の欠如といった難しいRL問題に適用できる。
論文参考訳（メタデータ） (2024-11-21T13:34:36Z)
Preference Elicitation for Offline Reinforcement Learning [59.136381500967744]
オフラインの嗜好に基づく強化学習アルゴリズムであるSim-OPRLを提案する。本アルゴリズムは,配当外データに対する悲観的アプローチと,最適方針に関する情報的嗜好を得るための楽観的アプローチを用いる。
論文参考訳（メタデータ） (2024-06-26T15:59:13Z)
Hybrid Inverse Reinforcement Learning [34.793570631021005]
逆強化学習による模倣学習は両刃剣である。我々は、不要な探索を抑えるために、ハイブリッドRL(オンラインデータとエキスパートデータの混合に関するトレーニング)の使用を提案する。モデルフリーとモデルベースハイブリッド逆RLアルゴリズムの両方を導出し、強力なポリシー性能を保証する。
論文参考訳（メタデータ） (2024-02-13T23:29:09Z)
Posterior Sampling with Delayed Feedback for Reinforcement Learning with Linear Function Approximation [62.969796245827006]
Delayed-PSVI は楽観的な値に基づくアルゴリズムであり、後続サンプリングによる雑音摂動により値関数空間を探索する。我々のアルゴリズムは、未知の遅延が存在する場合に、$widetildeO(sqrtd3H3 T + d2H2 E[tau]$最悪の後悔を実現する。遅延LPSVIのための勾配に基づく近似サンプリングスキームをLangevin動的に組み込んだ。
論文参考訳（メタデータ） (2023-10-29T06:12:43Z)
Query-Dependent Prompt Evaluation and Optimization with Offline Inverse RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。このような最適化では、以前見過ごされたクエリ依存の目的を特定します。本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文参考訳（メタデータ） (2023-09-13T01:12:52Z)
Query-Policy Misalignment in Preference-Based Reinforcement Learning [21.212703100030478]
報酬モデル全体の品質を改善するために選択された一見有意義なクエリは、実際にはRLエージェントの関心と一致しない可能性があることを示す。この問題は、ほぼ政治上のクエリと、特別に設計されたハイブリッド体験リプレイを通じて、効果的に対処できることが示される。提案手法は,人間のフィードバックとRLサンプルの効率の両面で有意な向上を実現している。
論文参考訳（メタデータ） (2023-05-27T07:55:17Z)
Provably Efficient Representation Selection in Low-rank Markov Decision Processes: From Online to Offline RL [84.14947307790361]
オンラインおよびオフラインの強化学習における表現学習のための効率的なアルゴリズムであるReLEXを提案する。 Re-UCBと呼ばれるReLEXのオンラインバージョンは、表現の選択なしでは最先端のアルゴリズムよりも常に悪い性能を発揮することを示す。オフラインのReLEX-LCBに対して、表現クラスが状態-作用空間をカバーできる場合、アルゴリズムが最適なポリシーを見つけることができることを示す。
論文参考訳（メタデータ） (2021-06-22T17:16:50Z)
Sparse Signal Reconstruction for Nonlinear Models via Piecewise Rational Optimization [27.080837460030583]
劣化した信号を非線形歪みと限られたサンプリングレートで再構成する手法を提案する。本手法は,不正確な適合項と罰則として定式化する。シミュレーションの利点の観点から,この問題の活用方法を示す。
論文参考訳（メタデータ） (2020-10-29T09:05:19Z)
Dynamics Generalization via Information Bottleneck in Deep Reinforcement Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文参考訳（メタデータ） (2020-08-03T02:24:20Z)
Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。 CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文参考訳（メタデータ） (2020-06-26T17:50:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。