論文の概要: Learning telic-controllable state representations
- arxiv url: http://arxiv.org/abs/2406.14476v1
- Date: Thu, 20 Jun 2024 16:38:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 12:43:03.187915
- Title: Learning telic-controllable state representations
- Title(参考訳): テリル制御可能な状態表現の学習
- Authors: Nadav Amir, Stas Tiomkin, Angela Langdon,
- Abstract要約: 本稿では,目標フレキシブルかつシンプルな制御可能な状態表現を学習するためのアルゴリズムを提案する。
我々の研究は、ゴールのレンズを通して自然と人工の学習を統一した理論的な視点に向けて、具体的なステップを提供する。
- 参考スコア(独自算出の注目度): 3.072340427031969
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computational accounts of purposeful behavior consist of descriptive and normative aspects. The former enable agents to ascertain the current (or future) state of affairs in the world and the latter to evaluate the desirability, or lack thereof, of these states with respect to the agent's goals. In Reinforcement Learning, the normative aspect (reward and value functions) is assumed to depend on a pre-defined and fixed descriptive one (state representation). Alternatively, these two aspects may emerge interdependently: goals can be, and indeed often are, expressed in terms of state representation features, but they may also serve to shape state representations themselves. Here, we illustrate a novel theoretical framing of state representation learning in bounded agents, coupling descriptive and normative aspects via the notion of goal-directed, or telic, states. We define a new controllability property of telic state representations to characterize the tradeoff between their granularity and the policy complexity capacity required to reach all telic states. We propose an algorithm for learning controllable state representations and demonstrate it using a simple navigation task with changing goals. Our framework highlights the crucial role of deliberate ignorance - knowing what to ignore - for learning state representations that are both goal-flexible and simple. More broadly, our work provides a concrete step towards a unified theoretical view of natural and artificial learning through the lens of goals.
- Abstract(参考訳): 目的的行動の計算的説明は記述的側面と規範的側面から構成される。
前者は、エージェントが世界の現在の(または将来の)状況を確認することを可能とし、後者はエージェントの目標に関して、これらの状態の望ましさ、またはその欠如を評価する。
強化学習(Reinforcement Learning)では、規範的側面(逆と値関数)は、事前に定義された、固定された記述的側面(状態表現)に依存すると仮定される。
あるいは、これらの2つの側面は相互依存的に現れるかもしれない: ゴールは状態表現の特徴の観点で表現できるが、状態表現自体を形作るのに役立つかもしれない。
ここでは、有界エージェントにおける状態表現学習の新たな理論的フレーミング、ゴール指向(telic)状態の概念による記述的および規範的側面の結合について説明する。
テリック状態表現の新たな制御可能性特性を定義し,その粒度と全てのテリック状態に到達するために必要な政策複雑性能力とのトレードオフを特徴付ける。
制御可能な状態表現を学習するためのアルゴリズムを提案し,目標変更を伴う単純なナビゲーションタスクを用いて実演する。
当社のフレームワークでは,目標フレキシブルかつシンプルな状態表現の学習において,意図的無知(無視すべきことを知る)という重要な役割を強調しています。
より広範に、我々の研究は、ゴールのレンズを通して自然と人工の学習の統一的な理論的な視点に向けた具体的なステップを提供する。
関連論文リスト
- Learning with Language-Guided State Abstractions [58.199148890064826]
高次元観測空間における一般化可能なポリシー学習は、よく設計された状態表現によって促進される。
我々の手法であるLGAは、自然言語の監視と言語モデルからの背景知識を組み合わせて、目に見えないタスクに適した状態表現を自動構築する。
シミュレーションされたロボットタスクの実験では、LGAは人間によって設計されたものと同様の状態抽象化をもたらすが、そのほんの少しの時間で得られる。
論文 参考訳(メタデータ) (2024-02-28T23:57:04Z) - Learning Interpretable Policies in Hindsight-Observable POMDPs through
Partially Supervised Reinforcement Learning [57.67629402360924]
本稿では,PSRL(Partially Supervised Reinforcement Learning)フレームワークを紹介する。
PSRLの中心は、教師なし学習と教師なし学習の融合である。
PSRLは、保存中のモデル解釈可能性を高め、従来の手法で設定された性能ベンチマークよりも大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-02-14T16:23:23Z) - Inverse Decision Modeling: Learning Interpretable Representations of
Behavior [72.80902932543474]
我々は,逆決定モデルに関する表現的,統一的な視点を開拓する。
これを逆問題(記述モデルとして)の形式化に用います。
この構造が(有界な)有理性の学習(解釈可能な)表現を可能にする方法について説明する。
論文 参考訳(メタデータ) (2023-10-28T05:05:01Z) - Neural Distillation as a State Representation Bottleneck in
Reinforcement Learning [4.129225533930966]
蒸留は, 良好な特性を示す状態表現の学習に有効であると主張する。
本稿では,これらの基準をまず評価し,標準逆振り子問題に基づく玩具環境における状態表現への蒸留の寄与を検証する。
論文 参考訳(メタデータ) (2022-10-05T13:00:39Z) - Bisimulation Makes Analogies in Goal-Conditioned Reinforcement Learning [71.52722621691365]
リッチな観測から汎用的な目標条件エージェントを構築することは、実世界の問題を解決するための強化学習(RL)の鍵となる。
目的条件ビシミュレーションと呼ばれる新しい状態抽象化法を提案する。
この抽象概念の計量形式を用いてこの表現を学習し、シミュレーション操作タスクにおける新しい目標に一般化する能力を示す。
論文 参考訳(メタデータ) (2022-04-27T17:00:11Z) - On the Generalization of Representations in Reinforcement Learning [32.303656009679045]
特定の状態表現から生じる一般化誤差に関する情報的境界を提供する。
我々の境界は任意の状態表現に適用され、よく一般化する表現とよく近似する表現の間の自然な緊張を定量化する。
論文 参考訳(メタデータ) (2022-03-01T15:22:09Z) - Interpretable Reinforcement Learning with Multilevel Subgoal Discovery [77.34726150561087]
離散環境のための新しい強化学習モデルを提案する。
モデルでは、エージェントは確率的ルールの形で環境に関する情報を学習する。
学習には報酬関数は不要であり、エージェントは達成するための第一の目標のみを与える必要がある。
論文 参考訳(メタデータ) (2022-02-15T14:04:44Z) - Value Function Spaces: Skill-Centric State Abstractions for Long-Horizon
Reasoning [120.38381203153159]
強化学習は、複雑なタスクを効果的に実行するポリシーを訓練することができる。
長期のタスクでは、これらのメソッドのパフォーマンスは水平線とともに劣化し、しばしば推論と下層のスキルの構築を必要とします。
そこで我々は,各下層スキルに対応する値関数を用いて,そのような表現を生成するシンプルな手法として,値関数空間を提案する。
論文 参考訳(メタデータ) (2021-11-04T22:46:16Z) - Towards Learning Controllable Representations of Physical Systems [9.088303226909279]
力学系の学習表現は次元性を減少させ、下流強化学習(RL)を支援する可能性がある
我々は、真の状態と対応する表現の関係を考察し、理想的には各表現が一意的な状態に対応することを提唱する。
これらのメトリクスは、オートエンコーダに基づく表現の変種を比較する際に、擬似ペグ・イン・ホールタスクにおける強化学習性能を予測する。
論文 参考訳(メタデータ) (2020-11-16T17:15:57Z) - An Overview of Natural Language State Representation for Reinforcement
Learning [17.285206913252786]
適切な状態表現は、強化学習における学習プロセスの基本的な部分である。
この調査は、自然言語の状態表現を構築するために文献で使用される戦略の概要である。
論文 参考訳(メタデータ) (2020-07-19T20:15:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。