論文の概要: On the Limitations of Markovian Rewards to Express Multi-Objective,
Risk-Sensitive, and Modal Tasks
- arxiv url: http://arxiv.org/abs/2401.14811v1
- Date: Fri, 26 Jan 2024 12:18:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-29 15:15:20.284390
- Title: On the Limitations of Markovian Rewards to Express Multi-Objective,
Risk-Sensitive, and Modal Tasks
- Title(参考訳): マルチ目的, リスク感, モーダル課題の表現におけるマルコフ報酬の限界について
- Authors: Joar Skalse and Alessandro Abate
- Abstract要約: 強化学習(RL)におけるスカラー・マルコフ報酬関数の表現性について検討する。
本稿では、多目的RL、リスク感受性RL、モーダルRLの3つのクラスについて考察する。
これらの3つのクラスにおいて、スカラー、マルコフの報酬は、ほとんどのインスタンスを表現できない。
- 参考スコア(独自算出の注目度): 72.08225446179783
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the expressivity of scalar, Markovian reward
functions in Reinforcement Learning (RL), and identify several limitations to
what they can express. Specifically, we look at three classes of RL tasks;
multi-objective RL, risk-sensitive RL, and modal RL. For each class, we derive
necessary and sufficient conditions that describe when a problem in this class
can be expressed using a scalar, Markovian reward. Moreover, we find that
scalar, Markovian rewards are unable to express most of the instances in each
of these three classes. We thereby contribute to a more complete understanding
of what standard reward functions can and cannot express. In addition to this,
we also call attention to modal problems as a new class of problems, since they
have so far not been given any systematic treatment in the RL literature. We
also briefly outline some approaches for solving some of the problems we
discuss, by means of bespoke RL algorithms.
- Abstract(参考訳): 本稿では,強化学習(rl)におけるスカラー,マルコフ報酬関数の表現性について検討し,その表現能力に対するいくつかの制限を明らかにする。
具体的には、多目的RL、リスク感受性RL、モーダルRLの3つのクラスを考察する。
各クラスについて、このクラス内の問題がスカラー、マルコフの報酬を使って表現できるときを記述する必要十分条件を導出する。
さらに、スカラーとマルコフの報酬は、これら3つのクラスのインスタンスのほとんどを表現できないことが分かりました。
したがって、標準報酬関数ができることと表現できないことのより完全な理解に寄与する。
これに加えて,rl文献では体系的な処理が行われていないため,新たな問題としてモーダル問題にも注意を払っている。
我々はまた、RLアルゴリズムによって議論する問題のいくつかを解決するためのいくつかのアプローチを概説する。
関連論文リスト
- Reinforcement Learning Problem Solving with Large Language Models [0.0]
大規模言語モデル (LLM) には膨大な量の世界知識があり、自然言語処理 (NLP) タスクの性能向上のために様々な分野に応用できるようになっている。
これはまた、人間とAIシステム間の会話に基づく対話による、意図した問題を解決するための、よりアクセスしやすいパラダイムを促進する。
研究科学者」と「レガリー・マター・インテーク」の2つの詳細なケーススタディを通して、我々のアプローチの実践性を示す。
論文 参考訳(メタデータ) (2024-04-29T12:16:08Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient
Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。
この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。
第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文 参考訳(メタデータ) (2023-08-21T02:07:35Z) - A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - Understanding the Complexity Gains of Single-Task RL with a Curriculum [83.46923851724408]
強化学習 (Reinforcement Learning, RL) の問題は, 十分に形が整った報酬なしでは困難である。
カリキュラムで定義されるマルチタスクRL問題として、シングルタスクRL問題を再構成する理論的枠組みを提供する。
マルチタスクRL問題における各タスクの逐次解法は、元の単一タスク問題の解法よりも計算効率がよいことを示す。
論文 参考訳(メタデータ) (2022-12-24T19:46:47Z) - On the Expressivity of Markov Reward [89.96685777114456]
本稿では,エージェントが実行するタスクをキャプチャする手段として,報酬の表現性を理解することを目的としている。
本研究は,(1)許容される行動の集合,(2)行動上の部分順序,(3)軌道上の部分順序の3つの新しい抽象概念「タスク」について考察する。
論文 参考訳(メタデータ) (2021-11-01T12:12:16Z) - Active Reinforcement Learning: Observing Rewards at a Cost [9.034315299202847]
アクティブ強化学習(英: Active reinforcement learning、ARL)は、エージェントがクエリコストを支払わない限り報酬を観察しない強化学習の変種である。
ARLの中心的な問題は、報酬情報の長期的な価値を定量化する方法である。
我々は,多腕バンディットおよび(タブラル)決定過程におけるARLに対するいくつかのアプローチを提案し,評価する。
論文 参考訳(メタデータ) (2020-11-13T01:01:13Z) - Active Finite Reward Automaton Inference and Reinforcement Learning
Using Queries and Counterexamples [31.31937554018045]
深部強化学習(RL)法は, 良好な性能を達成するために, 環境探索からの集中的なデータを必要とする。
本稿では,RLエージェントが探索過程を推論し,その将来的な探索を効果的に導くための高レベルの知識を蒸留するフレームワークを提案する。
具体的には、L*学習アルゴリズムを用いて、有限報酬オートマトンという形で高レベルの知識を学習する新しいRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-28T21:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。