論文の概要: On The Expressivity of Objective-Specification Formalisms in
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2310.11840v1
- Date: Wed, 18 Oct 2023 09:46:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 17:08:03.396915
- Title: On The Expressivity of Objective-Specification Formalisms in
Reinforcement Learning
- Title(参考訳): 強化学習における目的特定形式主義の表現性について
- Authors: Rohan Subramani and Marcus Williams and Max Heitmann and Halfdan Holm
and Charlie Griffin and Joar Skalse
- Abstract要約: 強化学習における17の客観的特化形式表現の表現性の比較
我々は、異なる形式主義に対する様々な制限を見つけ、形式主義が支配的に表現的であり、現在の技法で最適化する直感的なものではない。
本研究は,政策学習と報奨学習の両方に影響を及ぼす。
- 参考スコア(独自算出の注目度): 4.998202587873575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To solve a task with reinforcement learning (RL), it is necessary to formally
specify the goal of that task. Although most RL algorithms require that the
goal is formalised as a Markovian reward function, alternatives have been
developed (such as Linear Temporal Logic and Multi-Objective Reinforcement
Learning). Moreover, it is well known that some of these formalisms are able to
express certain tasks that other formalisms cannot express. However, there has
not yet been any thorough analysis of how these formalisms relate to each other
in terms of expressivity. In this work, we fill this gap in the existing
literature by providing a comprehensive comparison of the expressivities of 17
objective-specification formalisms in RL. We place these formalisms in a
preorder based on their expressive power, and present this preorder as a Hasse
diagram. We find a variety of limitations for the different formalisms, and
that no formalism is both dominantly expressive and straightforward to optimise
with current techniques. For example, we prove that each of Regularised RL,
Outer Nonlinear Markov Rewards, Reward Machines, Linear Temporal Logic, and
Limit Average Rewards can express an objective that the others cannot. Our
findings have implications for both policy optimisation and reward learning.
Firstly, we identify expressivity limitations which are important to consider
when specifying objectives in practice. Secondly, our results highlight the
need for future research which adapts reward learning to work with a variety of
formalisms, since many existing reward learning methods implicitly assume that
desired objectives can be expressed with Markovian rewards. Our work
contributes towards a more cohesive understanding of the costs and benefits of
different RL objective-specification formalisms.
- Abstract(参考訳): 強化学習(RL)の課題を解決するためには,その課題の目標を正式に指定する必要がある。
ほとんどのRLアルゴリズムはゴールをマルコフ報酬関数として定式化する必要があるが、代替案が開発されている(線形時間論理や多目的強化学習など)。
さらに、これらの形式主義のいくつかは他の形式主義が表現できない特定のタスクを表現できることはよく知られている。
しかしながら、これらの形式が相互にどのような関係を持つのか、表現性の観点からの詳細な分析はまだ行われていない。
本稿では,既存の文献におけるこのギャップを,RLにおける17の客観的特定形式表現の包括的比較によって埋める。
私たちはこれらの形式をその表現力に基づいて前順序に置き、この前順序をハッセ図として提示する。
我々は、異なる形式主義に対する様々な制限を見つけ、形式主義が支配的に表現的であり、現在の技法で最適化するのには単純でない。
例えば、正規化rl、外部非線形マルコフ報酬、報酬機械、線形時相論理、限界平均報酬のそれぞれが、他者ができない目標を表現することができることを証明している。
この結果は,政策最適化と報奨学習の両方に影響を及ぼす。
まず,現実の目的を特定する際に考慮すべき表現性制限を同定する。
第2に, 既存の報酬学習手法の多くは, 希望する目的をマルコフ的報酬で表現できると暗黙的に仮定しているため, 報酬学習を様々な形式に適応させる今後の研究の必要性を浮き彫りにしている。
我々の研究は、RLの客観的な定式化のコストと利点をより密集した理解に寄与する。
関連論文リスト
- Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - A Unifying Framework for Action-Conditional Self-Predictive Reinforcement Learning [48.59516337905877]
優れた表現を学ぶことは、強化学習(RL)エージェントにとって重要な課題である。
近年の研究では、これらのアルゴリズムに関する理論的洞察が生まれている。
我々は,行動条件の自己予測的目的を分析することによって,理論と実践のギャップを埋める一歩を踏み出した。
論文 参考訳(メタデータ) (2024-06-04T07:22:12Z) - Hierarchical Invariance for Robust and Interpretable Vision Tasks at Larger Scales [54.78115855552886]
本稿では、畳み込みニューラルネットワーク(CNN)のような階層型アーキテクチャを用いて、オーバーコンプリート不変量を構築する方法を示す。
オーバーコンプリート性により、そのタスクはニューラルアーキテクチャサーチ(NAS)のような方法で適応的に形成される。
大規模で頑健で解釈可能な視覚タスクの場合、階層的不変表現は伝統的なCNNや不変量に対する効果的な代替物とみなすことができる。
論文 参考訳(メタデータ) (2024-02-23T16:50:07Z) - Defining Replicability of Prediction Rules [2.4366811507669124]
本稿では,予測規則の再現性を定義するためのアプローチを提案する。
私は、典型的な利用状況における「一貫性のある結果」の意味に特に焦点を合わせます。
論文 参考訳(メタデータ) (2023-04-30T13:27:55Z) - Goal-Conditioned Q-Learning as Knowledge Distillation [136.79415677706612]
目標条件設定における非政治強化学習と知識蒸留との関連について検討する。
これは,目標の空間が高次元である場合に,目標条件付き非政治強化学習の性能を向上させることを実証的に示す。
また,複数のスパース目標を同時に達成した場合に,この手法を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2022-08-28T22:01:10Z) - DAReN: A Collaborative Approach Towards Reasoning And Disentangling [27.50150027974947]
本稿では,2つのタスクを協調的に改善するために,帰納的バイアスの弱い形式を活用する,エンドツーエンドの共同表現推論学習フレームワークを提案する。
GM-RPMの原理に基づくDAReN(Disentangling based Abstract Reasoning Network)を用いてこれを実現した。
論文 参考訳(メタデータ) (2021-09-27T16:10:30Z) - Variational Empowerment as Representation Learning for Goal-Based
Reinforcement Learning [114.07623388322048]
本稿では,標準目標条件付きRL (GCRL) を目的変動エンパワーメントによってカプセル化する方法について論じる。
我々の研究は、ゴールベースRLで表現学習技術を評価し、分析し、開発する新しい基礎を築いた。
論文 参考訳(メタデータ) (2021-06-02T18:12:26Z) - Adversarial Intrinsic Motivation for Reinforcement Learning [60.322878138199364]
政策状態の訪問分布と目標分布とのワッサースタイン-1距離が強化学習タスクに有効に活用できるかどうかを検討する。
我々のアプローチは、AIM (Adversarial Intrinsic Motivation) と呼ばれ、このワッサーシュタイン-1距離をその双対目的を通して推定し、補足報酬関数を計算する。
論文 参考訳(メタデータ) (2021-05-27T17:51:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。