論文の概要: Learning telic-controllable state representations
- arxiv url: http://arxiv.org/abs/2406.14476v2
- Date: Tue, 16 Jul 2024 23:20:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 21:47:53.641595
- Title: Learning telic-controllable state representations
- Title(参考訳): テリル制御可能な状態表現の学習
- Authors: Nadav Amir, Stas Tiomkin, Angela Langdon,
- Abstract要約: 本稿では,有界エージェントにおける状態表現学習のための新しい計算フレームワークを提案する。
我々の研究は、自然エージェントと人工エージェントの目標指向状態表現学習に関する統一的な理論的視点を推し進めている。
- 参考スコア(独自算出の注目度): 3.072340427031969
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computational descriptions of purposeful behavior comprise both descriptive and normative} aspects. The former are used to ascertain current (or future) states of the world and the latter to evaluate the desirability, or lack thereof, of these states under some goal. In Reinforcement Learning, the normative aspect (reward and value functions) is assumed to depend on a predefined and fixed descriptive one (state representation). Alternatively, these two aspects may emerge interdependently: goals can be, and indeed often are, approximated by state-dependent reward functions, but they may also shape the acquired state representations themselves. Here, we present a novel computational framework for state representation learning in bounded agents, where descriptive and normative aspects are coupled through the notion of goal-directed, or telic, states. We introduce the concept of telic controllability to characterize the tradeoff between the granularity of a telic state representation and the policy complexity required to reach all telic states. We propose an algorithm for learning controllable state representations, illustrating it using a simple navigation task with shifting goals. Our framework highlights the crucial role of deliberate ignorance -- knowing which features of experience to ignore -- for learning state representations that balance goal flexibility and policy complexity. More broadly, our work advances a unified theoretical perspective on goal-directed state representation learning in natural and artificial agents.
- Abstract(参考訳): 目的的行動の計算的記述は、記述的側面と規範的側面の両方から構成される。
前者は、世界の現在(または未来)の状態を確認するために使用され、後者は、ある目標の下でこれらの状態の望ましさ、またはその欠如を評価するために使用される。
強化学習(Reinforcement Learning)では、規範的側面(逆と値関数)は、事前定義された、固定された記述的側面(状態表現)に依存すると仮定される。
ゴールは状態依存の報酬関数によって近似されるが、取得した状態表現自体を形作ることもできる。
本稿では,有界エージェントにおける状態表現学習のための新しい計算フレームワークを提案する。
本稿では, テリック状態表現の粒度と, 全てのテリック状態に到達するために必要な政策複雑性とのトレードオフを特徴付ける, テリック制御可能性の概念を紹介する。
制御可能な状態表現を学習するためのアルゴリズムを提案する。
当社のフレームワークは、目標の柔軟性とポリシの複雑さのバランスをとる状態表現を学習する上で、意図的な無知(どのエクスペリエンスを無視すべきかを知る)という重要な役割を強調しています。
より広範に、我々の研究は、自然エージェントと人工エージェントの目標指向状態表現学習に関する統一的な理論的視点を推し進めている。
関連論文リスト
- Learning with Language-Guided State Abstractions [58.199148890064826]
高次元観測空間における一般化可能なポリシー学習は、よく設計された状態表現によって促進される。
我々の手法であるLGAは、自然言語の監視と言語モデルからの背景知識を組み合わせて、目に見えないタスクに適した状態表現を自動構築する。
シミュレーションされたロボットタスクの実験では、LGAは人間によって設計されたものと同様の状態抽象化をもたらすが、そのほんの少しの時間で得られる。
論文 参考訳(メタデータ) (2024-02-28T23:57:04Z) - Learning Interpretable Policies in Hindsight-Observable POMDPs through
Partially Supervised Reinforcement Learning [57.67629402360924]
本稿では,PSRL(Partially Supervised Reinforcement Learning)フレームワークを紹介する。
PSRLの中心は、教師なし学習と教師なし学習の融合である。
PSRLは、保存中のモデル解釈可能性を高め、従来の手法で設定された性能ベンチマークよりも大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-02-14T16:23:23Z) - Inverse Decision Modeling: Learning Interpretable Representations of
Behavior [72.80902932543474]
我々は,逆決定モデルに関する表現的,統一的な視点を開拓する。
これを逆問題(記述モデルとして)の形式化に用います。
この構造が(有界な)有理性の学習(解釈可能な)表現を可能にする方法について説明する。
論文 参考訳(メタデータ) (2023-10-28T05:05:01Z) - State Representations as Incentives for Reinforcement Learning Agents: A Sim2Real Analysis on Robotic Grasping [3.4777703321218225]
本研究は、特定のロボットタスクを解くためのエージェントのインセンティブ化における様々な表現の効果について検討する。
手作りの数値状態から符号化された画像ベース表現に至るまで、状態表現の連続体が定義される。
シミュレーションにおけるエージェントの課題解決能力に対する各表現の影響と実ロボットへの学習方針の伝達可能性について検討した。
論文 参考訳(メタデータ) (2023-09-21T11:41:22Z) - Neural Distillation as a State Representation Bottleneck in
Reinforcement Learning [4.129225533930966]
蒸留は, 良好な特性を示す状態表現の学習に有効であると主張する。
本稿では,これらの基準をまず評価し,標準逆振り子問題に基づく玩具環境における状態表現への蒸留の寄与を検証する。
論文 参考訳(メタデータ) (2022-10-05T13:00:39Z) - Bisimulation Makes Analogies in Goal-Conditioned Reinforcement Learning [71.52722621691365]
リッチな観測から汎用的な目標条件エージェントを構築することは、実世界の問題を解決するための強化学習(RL)の鍵となる。
目的条件ビシミュレーションと呼ばれる新しい状態抽象化法を提案する。
この抽象概念の計量形式を用いてこの表現を学習し、シミュレーション操作タスクにおける新しい目標に一般化する能力を示す。
論文 参考訳(メタデータ) (2022-04-27T17:00:11Z) - On the Generalization of Representations in Reinforcement Learning [32.303656009679045]
特定の状態表現から生じる一般化誤差に関する情報的境界を提供する。
我々の境界は任意の状態表現に適用され、よく一般化する表現とよく近似する表現の間の自然な緊張を定量化する。
論文 参考訳(メタデータ) (2022-03-01T15:22:09Z) - Interpretable Reinforcement Learning with Multilevel Subgoal Discovery [77.34726150561087]
離散環境のための新しい強化学習モデルを提案する。
モデルでは、エージェントは確率的ルールの形で環境に関する情報を学習する。
学習には報酬関数は不要であり、エージェントは達成するための第一の目標のみを与える必要がある。
論文 参考訳(メタデータ) (2022-02-15T14:04:44Z) - Value Function Spaces: Skill-Centric State Abstractions for Long-Horizon
Reasoning [120.38381203153159]
強化学習は、複雑なタスクを効果的に実行するポリシーを訓練することができる。
長期のタスクでは、これらのメソッドのパフォーマンスは水平線とともに劣化し、しばしば推論と下層のスキルの構築を必要とします。
そこで我々は,各下層スキルに対応する値関数を用いて,そのような表現を生成するシンプルな手法として,値関数空間を提案する。
論文 参考訳(メタデータ) (2021-11-04T22:46:16Z) - Towards Learning Controllable Representations of Physical Systems [9.088303226909279]
力学系の学習表現は次元性を減少させ、下流強化学習(RL)を支援する可能性がある
我々は、真の状態と対応する表現の関係を考察し、理想的には各表現が一意的な状態に対応することを提唱する。
これらのメトリクスは、オートエンコーダに基づく表現の変種を比較する際に、擬似ペグ・イン・ホールタスクにおける強化学習性能を予測する。
論文 参考訳(メタデータ) (2020-11-16T17:15:57Z) - An Overview of Natural Language State Representation for Reinforcement
Learning [17.285206913252786]
適切な状態表現は、強化学習における学習プロセスの基本的な部分である。
この調査は、自然言語の状態表現を構築するために文献で使用される戦略の概要である。
論文 参考訳(メタデータ) (2020-07-19T20:15:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。