論文の概要: Reinforcement Learning with Segment Feedback
- arxiv url: http://arxiv.org/abs/2502.01876v1
- Date: Mon, 03 Feb 2025 23:08:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:57:43.518088
- Title: Reinforcement Learning with Segment Feedback
- Title(参考訳): セグメントフィードバックによる強化学習
- Authors: Yihan Du, Anna Winnicki, Gal Dalal, Shie Mannor, R. Srikant,
- Abstract要約: 状態ごとの反応フィードバックと軌道フィードバックのギャップを埋める一般的なパラダイムを提供するRLというモデルを考える。
バイナリフィードバックの下では、$m$のセグメント数の増加は指数率で後悔を減少させるが、驚くべきことに、和フィードバックの下では、$m$の増加は後悔を著しく減少させるものではない。
- 参考スコア(独自算出の注目度): 56.54271464134885
- License:
- Abstract: Standard reinforcement learning (RL) assumes that an agent can observe a reward for each state-action pair. However, in practical applications, it is often difficult and costly to collect a reward for each state-action pair. While there have been several works considering RL with trajectory feedback, it is unclear if trajectory feedback is inefficient for learning when trajectories are long. In this work, we consider a model named RL with segment feedback, which offers a general paradigm filling the gap between per-state-action feedback and trajectory feedback. In this model, we consider an episodic Markov decision process (MDP), where each episode is divided into $m$ segments, and the agent observes reward feedback only at the end of each segment. Under this model, we study two popular feedback settings: binary feedback and sum feedback, where the agent observes a binary outcome and a reward sum according to the underlying reward function, respectively. To investigate the impact of the number of segments $m$ on learning performance, we design efficient algorithms and establish regret upper and lower bounds for both feedback settings. Our theoretical and experimental results show that: under binary feedback, increasing the number of segments $m$ decreases the regret at an exponential rate; in contrast, surprisingly, under sum feedback, increasing $m$ does not reduce the regret significantly.
- Abstract(参考訳): 標準強化学習(RL)は、エージェントが各状態-作用対に対する報酬を観察できると仮定する。
しかし、実際的な応用では、各状態-作用対に対する報酬を集めることは困難でコストがかかることが多い。
軌道フィードバックを伴うRLを検討する研究はいくつかあるが、軌道フィードバックが軌道フィードバックが長い場合の学習に非効率であるかどうかは不明である。
本研究では,各状態間フィードバックと軌道フィードバックのギャップを埋める一般パラダイムを提供するRLというモデルについて考察する。
本モデルでは,各エピソードを$m$セグメントに分割し,各セグメントの最後にのみ報酬フィードバックを観察するエピソードマルコフ決定過程(MDP)を考察する。
本モデルでは,2値フィードバックと2値フィードバックという2つの一般的なフィードバック設定について検討する。
学習性能に対する$m$のセグメント数の影響を調べるため,効率的なアルゴリズムを設計し,双方のフィードバック設定に対して,後悔すべき上位と下位の境界を確立する。
理論的および実験的結果から, 2進フィードバックでは, セグメント数$m$の増加は指数率で後悔を減少させるが, 逆に和フィードバックでは$m$の増加は後悔を著しく減少させるものではないことが示唆された。
関連論文リスト
- R3HF: Reward Redistribution for Enhancing Reinforcement Learning from Human Feedback [25.27230140274847]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるためのパラダイムを提供する。
本稿では,より微細なトークンレベルの報酬配分を容易にするR3HFという新たな報酬分配手法を提案する。
論文 参考訳(メタデータ) (2024-11-13T02:45:21Z) - Episodic Return Decomposition by Difference of Implicitly Assigned
Sub-Trajectory Reward [8.445578144906415]
本稿では,ダイアスターと呼ばれる新しいエピソード回帰分解法を提案する。
ダイアスターはエピソード報酬を任意のカットポイントで2つの分割されたサブトラジェクトリのクレジットに分解する。
実験結果から,本手法は試料効率と性能の両面から従来の最先端手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-17T07:58:19Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - The Best of Both Worlds: Reinforcement Learning with Logarithmic Regret
and Policy Switches [84.54669549718075]
漸進的強化学習(RL)における後悔の最小化問題について検討する。
一般関数クラスと一般モデルクラスで学ぶことに集中する。
対数的後悔境界は$O(log T)$スイッチングコストのアルゴリズムによって実現可能であることを示す。
論文 参考訳(メタデータ) (2022-03-03T02:55:55Z) - Near-Optimal Regret for Adversarial MDP with Delayed Bandit Feedback [67.63049551992816]
エピソードマルコフ決定過程(MDP)におけるオンライン学習について検討した。
ほぼ最適の$sqrtK + D$ regret, where $K$ is the number of episodes, $D = sum_k=1K dk$ is the total delay。
論文 参考訳(メタデータ) (2022-01-31T12:34:26Z) - Top $K$ Ranking for Multi-Armed Bandit with Noisy Evaluations [102.32996053572144]
我々は,各ラウンドの開始時に,学習者が各アームの真の報酬について,ノイズのない独立した評価を受けるマルチアームバンディット・セッティングを考える。
評価の方法によって異なるアルゴリズムアプローチと理論的保証を導出する。
論文 参考訳(メタデータ) (2021-12-13T09:48:54Z) - RewardsOfSum: Exploring Reinforcement Learning Rewards for Summarisation [7.0471949371778795]
本稿では,抽象的な要約作業に対する2つの報酬関数を提案する。
最初の関数はRwB-Hingeと呼ばれ、勾配更新のサンプルを動的に選択する。
第2の機能はRISKと呼ばれ、強力な候補者の小さなプールを利用して報酬を知らせる。
論文 参考訳(メタデータ) (2021-06-08T03:30:50Z) - Reinforcement Learning with Trajectory Feedback [76.94405309609552]
本研究では、この仮定を緩和する第一歩を踏み出し、より弱い形のフィードバックを必要とする。
あらゆる行動の後に得られる報酬を観察する代わりに、エージェントが観察する全軌道の質、すなわち、この軌道上で得られるすべての報酬の総和を表すスコアのみを受け取ると仮定する。
我々は、未知の遷移モデルと未知の遷移モデルの両方に対して、未知の報酬の最小二乗推定に基づいて強化学習アルゴリズムをこの設定に拡張し、それらの後悔を分析してこれらのアルゴリズムの性能について検討する。
論文 参考訳(メタデータ) (2020-08-13T17:49:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。