論文の概要: On The Expressivity of Objective-Specification Formalisms in
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2310.11840v2
- Date: Sat, 17 Feb 2024 14:21:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 05:22:56.074249
- Title: On The Expressivity of Objective-Specification Formalisms in
Reinforcement Learning
- Title(参考訳): 強化学習における目的特定形式主義の表現性について
- Authors: Rohan Subramani and Marcus Williams and Max Heitmann and Halfdan Holm
and Charlie Griffin and Joar Skalse
- Abstract要約: 強化学習における客観的特化形式の比較を行った。
形式主義は、支配的な表現力と、現在の技法で最適化するための単純さの両方を持たない。
結果は、報奨学習を多種多様なフォーマリズムに適応させる将来の研究の必要性を強調している。
- 参考スコア(独自算出の注目度): 4.998202587873575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most algorithms in reinforcement learning (RL) require that the objective is
formalised with a Markovian reward function. However, it is well-known that
certain tasks cannot be expressed by means of an objective in the Markov
rewards formalism, motivating the study of alternative objective-specification
formalisms in RL such as Linear Temporal Logic and Multi-Objective
Reinforcement Learning. To date, there has not yet been any thorough analysis
of how these formalisms relate to each other in terms of their expressivity. We
fill this gap in the existing literature by providing a comprehensive
comparison of 17 salient objective-specification formalisms. We place these
formalisms in a preorder based on their expressive power, and present this
preorder as a Hasse diagram. We find a variety of limitations for the different
formalisms, and argue that no formalism is both dominantly expressive and
straightforward to optimise with current techniques. For example, we prove that
each of Regularised RL, (Outer) Nonlinear Markov Rewards, Reward Machines,
Linear Temporal Logic, and Limit Average Rewards can express a task that the
others cannot. The significance of our results is twofold. First, we identify
important expressivity limitations to consider when specifying objectives for
policy optimization. Second, our results highlight the need for future research
which adapts reward learning to work with a greater variety of formalisms,
since many existing reward learning methods assume that the desired objective
takes a Markovian form. Our work contributes towards a more cohesive
understanding of the costs and benefits of different RL objective-specification
formalisms.
- Abstract(参考訳): 強化学習(rl)におけるほとんどのアルゴリズムは、目的をマルコフ報酬関数で定式化する必要がある。
しかし、マルコフの報奨における目的によって特定のタスクが表現できないことはよく知られており、線形時間論理や多目的強化学習のようなRLにおける代替目的特定形式論の研究を動機付けている。
これまでのところ、これらの形式主義が相互にどのような関係を持つのか、その表現性の観点からの詳細な分析はまだ行われていない。
既存の文献のこのギャップを埋めるためには、17の有能な客観的特化形式を包括的に比較する。
私たちはこれらの形式をその表現力に基づいて前順序に置き、この前順序をハッセ図として提示する。
異なる形式主義に対する様々な制限を見いだし、形式主義が圧倒的に表現力があり、現在の技法で最適化するのが簡単であると主張する。
例えば、正規化されたrl、(外部)非線形マルコフ報酬、報酬機械、線形時相論理、および制限平均報酬が、他の人ができないタスクを表現できることを証明する。
結果の意義は2つあります。
まず,政策最適化の目的を特定する際に考慮すべき重要な表現力制限を明らかにする。
第2に, 既存の報酬学習手法の多くは, 希望する目的がマルコフ形式をとると仮定しているため, 報酬学習を多種多様な形式に適応させる今後の研究の必要性を浮き彫りにした。
我々の研究は、RLの客観的な定式化のコストと利点をより密集した理解に寄与する。
関連論文リスト
- Hierarchical Invariance for Robust and Interpretable Vision Tasks at Larger Scales [54.78115855552886]
本稿では、畳み込みニューラルネットワーク(CNN)のような階層型アーキテクチャを用いて、オーバーコンプリート不変量を構築する方法を示す。
オーバーコンプリート性により、そのタスクはニューラルアーキテクチャサーチ(NAS)のような方法で適応的に形成される。
大規模で頑健で解釈可能な視覚タスクの場合、階層的不変表現は伝統的なCNNや不変量に対する効果的な代替物とみなすことができる。
論文 参考訳(メタデータ) (2024-02-23T16:50:07Z) - Boosting the Power of Small Multimodal Reasoning Models to Match Larger
Models with Self-Consistency Training [55.07940036854454]
マルチモーダル推論(multimodal reasoning)は、複数のモーダルをまたいだモデルによる質問に答える難しいタスクである。
既存のアプローチでは、言語と視覚のモダリティを2段階の推論フレームワークに組み込むことで進歩している。
MC-CoTは,複数の合理性と回答を生成し,投票プロセスを通じて最も正確な選択を行う自己整合性学習戦略である。
論文 参考訳(メタデータ) (2023-11-23T17:09:48Z) - Decomposing the Enigma: Subgoal-based Demonstration Learning for Formal
Theorem Proving [15.624453757710798]
大型言語モデル(LLMs)は、形式定理証明の領域における興味深い探索の道を示す。
本稿では,2つの要素からなるサブゴール型実演学習フレームワークを提案する。
検証精度は38.9%から44.3%に向上した。
論文 参考訳(メタデータ) (2023-05-25T11:35:52Z) - Defining Replicability of Prediction Rules [2.4366811507669124]
本稿では,予測規則の再現性を定義するためのアプローチを提案する。
私は、典型的な利用状況における「一貫性のある結果」の意味に特に焦点を合わせます。
論文 参考訳(メタデータ) (2023-04-30T13:27:55Z) - Synergies between Disentanglement and Sparsity: Generalization and
Identifiability in Multi-Task Learning [79.83792914684985]
我々は,最大スパース基底予測器が不整合表現をもたらす条件を提供する新しい識別可能性の結果を証明した。
この理論的な結果から,両レベル最適化問題に基づくアンタングル表現学習の実践的アプローチを提案する。
論文 参考訳(メタデータ) (2022-11-26T21:02:09Z) - Goal-Conditioned Q-Learning as Knowledge Distillation [136.79415677706612]
目標条件設定における非政治強化学習と知識蒸留との関連について検討する。
これは,目標の空間が高次元である場合に,目標条件付き非政治強化学習の性能を向上させることを実証的に示す。
また,複数のスパース目標を同時に達成した場合に,この手法を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2022-08-28T22:01:10Z) - DAReN: A Collaborative Approach Towards Reasoning And Disentangling [27.50150027974947]
本稿では,2つのタスクを協調的に改善するために,帰納的バイアスの弱い形式を活用する,エンドツーエンドの共同表現推論学習フレームワークを提案する。
GM-RPMの原理に基づくDAReN(Disentangling based Abstract Reasoning Network)を用いてこれを実現した。
論文 参考訳(メタデータ) (2021-09-27T16:10:30Z) - Variational Empowerment as Representation Learning for Goal-Based
Reinforcement Learning [114.07623388322048]
本稿では,標準目標条件付きRL (GCRL) を目的変動エンパワーメントによってカプセル化する方法について論じる。
我々の研究は、ゴールベースRLで表現学習技術を評価し、分析し、開発する新しい基礎を築いた。
論文 参考訳(メタデータ) (2021-06-02T18:12:26Z) - Adversarial Intrinsic Motivation for Reinforcement Learning [60.322878138199364]
政策状態の訪問分布と目標分布とのワッサースタイン-1距離が強化学習タスクに有効に活用できるかどうかを検討する。
我々のアプローチは、AIM (Adversarial Intrinsic Motivation) と呼ばれ、このワッサーシュタイン-1距離をその双対目的を通して推定し、補足報酬関数を計算する。
論文 参考訳(メタデータ) (2021-05-27T17:51:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。