論文の概要: On The Expressivity of Objective-Specification Formalisms in
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2310.11840v2
- Date: Sat, 17 Feb 2024 14:21:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 05:22:56.074249
- Title: On The Expressivity of Objective-Specification Formalisms in
Reinforcement Learning
- Title(参考訳): 強化学習における目的特定形式主義の表現性について
- Authors: Rohan Subramani and Marcus Williams and Max Heitmann and Halfdan Holm
and Charlie Griffin and Joar Skalse
- Abstract要約: 強化学習における客観的特化形式の比較を行った。
形式主義は、支配的な表現力と、現在の技法で最適化するための単純さの両方を持たない。
結果は、報奨学習を多種多様なフォーマリズムに適応させる将来の研究の必要性を強調している。
- 参考スコア(独自算出の注目度): 4.998202587873575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most algorithms in reinforcement learning (RL) require that the objective is
formalised with a Markovian reward function. However, it is well-known that
certain tasks cannot be expressed by means of an objective in the Markov
rewards formalism, motivating the study of alternative objective-specification
formalisms in RL such as Linear Temporal Logic and Multi-Objective
Reinforcement Learning. To date, there has not yet been any thorough analysis
of how these formalisms relate to each other in terms of their expressivity. We
fill this gap in the existing literature by providing a comprehensive
comparison of 17 salient objective-specification formalisms. We place these
formalisms in a preorder based on their expressive power, and present this
preorder as a Hasse diagram. We find a variety of limitations for the different
formalisms, and argue that no formalism is both dominantly expressive and
straightforward to optimise with current techniques. For example, we prove that
each of Regularised RL, (Outer) Nonlinear Markov Rewards, Reward Machines,
Linear Temporal Logic, and Limit Average Rewards can express a task that the
others cannot. The significance of our results is twofold. First, we identify
important expressivity limitations to consider when specifying objectives for
policy optimization. Second, our results highlight the need for future research
which adapts reward learning to work with a greater variety of formalisms,
since many existing reward learning methods assume that the desired objective
takes a Markovian form. Our work contributes towards a more cohesive
understanding of the costs and benefits of different RL objective-specification
formalisms.
- Abstract(参考訳): 強化学習(rl)におけるほとんどのアルゴリズムは、目的をマルコフ報酬関数で定式化する必要がある。
しかし、マルコフの報奨における目的によって特定のタスクが表現できないことはよく知られており、線形時間論理や多目的強化学習のようなRLにおける代替目的特定形式論の研究を動機付けている。
これまでのところ、これらの形式主義が相互にどのような関係を持つのか、その表現性の観点からの詳細な分析はまだ行われていない。
既存の文献のこのギャップを埋めるためには、17の有能な客観的特化形式を包括的に比較する。
私たちはこれらの形式をその表現力に基づいて前順序に置き、この前順序をハッセ図として提示する。
異なる形式主義に対する様々な制限を見いだし、形式主義が圧倒的に表現力があり、現在の技法で最適化するのが簡単であると主張する。
例えば、正規化されたrl、(外部)非線形マルコフ報酬、報酬機械、線形時相論理、および制限平均報酬が、他の人ができないタスクを表現できることを証明する。
結果の意義は2つあります。
まず,政策最適化の目的を特定する際に考慮すべき重要な表現力制限を明らかにする。
第2に, 既存の報酬学習手法の多くは, 希望する目的がマルコフ形式をとると仮定しているため, 報酬学習を多種多様な形式に適応させる今後の研究の必要性を浮き彫りにした。
我々の研究は、RLの客観的な定式化のコストと利点をより密集した理解に寄与する。
関連論文リスト
- Rethinking Multi-Objective Learning through Goal-Conditioned Supervised Learning [8.593384839118658]
多目的学習は、1つのモデルで複数の目的を同時に最適化することを目的としている。
正確な学習プロセスを形式化し実行することの難しさに悩まされる。
本稿では,既存のシーケンシャルデータに基づいて,複数の目的を自動学習する汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-12T03:47:40Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - A Unifying Framework for Action-Conditional Self-Predictive Reinforcement Learning [48.59516337905877]
優れた表現を学ぶことは、強化学習(RL)エージェントにとって重要な課題である。
近年の研究では、これらのアルゴリズムに関する理論的洞察が生まれている。
我々は,行動条件の自己予測的目的を分析することによって,理論と実践のギャップを埋める一歩を踏み出した。
論文 参考訳(メタデータ) (2024-06-04T07:22:12Z) - Hierarchical Invariance for Robust and Interpretable Vision Tasks at Larger Scales [54.78115855552886]
本稿では、畳み込みニューラルネットワーク(CNN)のような階層型アーキテクチャを用いて、オーバーコンプリート不変量を構築する方法を示す。
オーバーコンプリート性により、そのタスクはニューラルアーキテクチャサーチ(NAS)のような方法で適応的に形成される。
大規模で頑健で解釈可能な視覚タスクの場合、階層的不変表現は伝統的なCNNや不変量に対する効果的な代替物とみなすことができる。
論文 参考訳(メタデータ) (2024-02-23T16:50:07Z) - Defining Replicability of Prediction Rules [2.4366811507669124]
本稿では,予測規則の再現性を定義するためのアプローチを提案する。
私は、典型的な利用状況における「一貫性のある結果」の意味に特に焦点を合わせます。
論文 参考訳(メタデータ) (2023-04-30T13:27:55Z) - Goal-Conditioned Q-Learning as Knowledge Distillation [136.79415677706612]
目標条件設定における非政治強化学習と知識蒸留との関連について検討する。
これは,目標の空間が高次元である場合に,目標条件付き非政治強化学習の性能を向上させることを実証的に示す。
また,複数のスパース目標を同時に達成した場合に,この手法を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2022-08-28T22:01:10Z) - DAReN: A Collaborative Approach Towards Reasoning And Disentangling [27.50150027974947]
本稿では,2つのタスクを協調的に改善するために,帰納的バイアスの弱い形式を活用する,エンドツーエンドの共同表現推論学習フレームワークを提案する。
GM-RPMの原理に基づくDAReN(Disentangling based Abstract Reasoning Network)を用いてこれを実現した。
論文 参考訳(メタデータ) (2021-09-27T16:10:30Z) - Variational Empowerment as Representation Learning for Goal-Based
Reinforcement Learning [114.07623388322048]
本稿では,標準目標条件付きRL (GCRL) を目的変動エンパワーメントによってカプセル化する方法について論じる。
我々の研究は、ゴールベースRLで表現学習技術を評価し、分析し、開発する新しい基礎を築いた。
論文 参考訳(メタデータ) (2021-06-02T18:12:26Z) - Adversarial Intrinsic Motivation for Reinforcement Learning [60.322878138199364]
政策状態の訪問分布と目標分布とのワッサースタイン-1距離が強化学習タスクに有効に活用できるかどうかを検討する。
我々のアプローチは、AIM (Adversarial Intrinsic Motivation) と呼ばれ、このワッサーシュタイン-1距離をその双対目的を通して推定し、補足報酬関数を計算する。
論文 参考訳(メタデータ) (2021-05-27T17:51:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。