論文の概要: Hierarchical State Abstraction Based on Structural Information
Principles
- arxiv url: http://arxiv.org/abs/2304.12000v1
- Date: Mon, 24 Apr 2023 11:06:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 15:12:37.067190
- Title: Hierarchical State Abstraction Based on Structural Information
Principles
- Title(参考訳): 構造情報原理に基づく階層的状態抽象化
- Authors: Xianghua Zeng, Hao Peng, Angsheng Li, Chunyang Liu, Lifang He, Philip
S. Yu
- Abstract要約: 本稿では、情報理論の観点から、新しい数学的構造情報原理に基づく状態抽象化フレームワーク、すなわちSISAを提案する。
SISAは、様々な表現学習目標と柔軟に統合され、パフォーマンスをさらに向上する一般的なフレームワークである。
- 参考スコア(独自算出の注目度): 70.24495170921075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State abstraction optimizes decision-making by ignoring irrelevant
environmental information in reinforcement learning with rich observations.
Nevertheless, recent approaches focus on adequate representational capacities
resulting in essential information loss, affecting their performances on
challenging tasks. In this article, we propose a novel mathematical Structural
Information principles-based State Abstraction framework, namely SISA, from the
information-theoretic perspective. Specifically, an unsupervised, adaptive
hierarchical state clustering method without requiring manual assistance is
presented, and meanwhile, an optimal encoding tree is generated. On each
non-root tree node, a new aggregation function and condition structural entropy
are designed to achieve hierarchical state abstraction and compensate for
sampling-induced essential information loss in state abstraction. Empirical
evaluations on a visual gridworld domain and six continuous control benchmarks
demonstrate that, compared with five SOTA state abstraction approaches, SISA
significantly improves mean episode reward and sample efficiency up to 18.98
and 44.44%, respectively. Besides, we experimentally show that SISA is a
general framework that can be flexibly integrated with different
representation-learning objectives to improve their performances further.
- Abstract(参考訳): 状態抽象化は、豊かな観察を伴う強化学習において無関係な環境情報を無視して意思決定を最適化する。
それにもかかわらず、近年のアプローチでは、適切な表現能力に焦点が当てられ、重要な情報損失をもたらし、課題タスクのパフォーマンスに影響を与えている。
本稿では,情報理論の観点から,新しい数学的構造情報原理に基づく状態抽象化フレームワークであるsisaを提案する。
具体的には、手動の補助を必要としない教師なし適応階層的状態クラスタリング法を示し、一方、最適な符号化木を生成する。
各非ルート木ノード上では,階層的状態抽象化を実現するために,新しい集約関数と条件構造エントロピーが設計され,状態抽象化におけるサンプリングによる本質的情報損失を補償する。
視覚グリッドワールド領域と6つの連続制御ベンチマークに関する実証的な評価は、5つのSOTA状態抽象化アプローチと比較して、SISAは平均エピソード報酬とサンプル効率をそれぞれ18.98と44.44%に改善していることを示している。
さらに,SISAは様々な表現学習目標と柔軟に統合し,パフォーマンスをさらに向上する汎用フレームワークであることを実験的に示す。
関連論文リスト
- Effective Reinforcement Learning Based on Structural Information Principles [19.82391136775341]
本稿では, 効率的な意思決定・意思決定のための, 新規で汎用的な構造情報原則に基づくフレームワーク,すなわちSIDMを提案する。
SIDMは、様々な単一エージェントおよびマルチエージェントRLアルゴリズムに柔軟に組み込むことができ、その性能を向上させることができる。
論文 参考訳(メタデータ) (2024-04-15T13:02:00Z) - Consciousness-Inspired Spatio-Temporal Abstractions for Better Generalization in Reinforcement Learning [83.41487567765871]
Skipperはモデルベースの強化学習フレームワークである。
これは、与えられたタスクをより小さく、より管理しやすいサブタスクに自動的に一般化する。
環境の関連部分には、スパースな意思決定と集中した抽象化を可能にする。
論文 参考訳(メタデータ) (2023-09-30T02:25:18Z) - A Direct Approximation of AIXI Using Logical State Abstractions [6.570488724773507]
本稿では,強化学習エージェントに対するベイズ最適性の概念である AIXI と論理状態抽象化の実践的統合を提案する。
状態抽象化を形成するための機能の適切なサブセットを選択するという問題に対処する。
その後、抽象状態列上のコンテキストツリー重み付けの適切な一般化を用いて、厳密なベイズモデル学習が達成される。
論文 参考訳(メタデータ) (2022-10-13T11:30:56Z) - Causal Dynamics Learning for Task-Independent State Abstraction [61.707048209272884]
タスク独立状態抽象化(CDL)のための因果ダイナミクス学習を導入する。
CDLは、状態変数とアクションの間の不要な依存関係を取り除く理論的に証明された因果ダイナミクスモデルを学ぶ。
状態抽象化は、学習されたダイナミクスから導き出すことができる。
論文 参考訳(メタデータ) (2022-06-27T17:02:53Z) - MINER: Improving Out-of-Vocabulary Named Entity Recognition from an
Information Theoretic Perspective [57.19660234992812]
NERモデルは標準のNERベンチマークで有望な性能を達成した。
近年の研究では、従来のアプローチはエンティティ参照情報に過度に依存し、OoV(out-of-vocabulary)エンティティ認識の性能が劣っていることが示されている。
我々は、情報理論の観点からこの問題を改善するための新しいNER学習フレームワークであるMINERを提案する。
論文 参考訳(メタデータ) (2022-04-09T05:18:20Z) - Dynamic probabilistic logic models for effective abstractions in RL [35.54018388244684]
RePReLは階層的なフレームワークであり、リレーショナルプランナーを利用して学習に有用な状態抽象化を提供する。
実験の結果,RePReLは手前のタスクに対して,優れた性能と効率的な学習を実現するだけでなく,目に見えないタスクに対するより優れた一般化も示している。
論文 参考訳(メタデータ) (2021-10-15T18:53:04Z) - Action-Sufficient State Representation Learning for Control with
Structural Constraints [21.47086290736692]
本稿では,部分的に観測可能な環境に焦点をあて,意思決定に十分な情報を収集する,最小限の状態表現の集合を学習することを提案する。
システム内の変数間の構造的関係のための生成環境モデルを構築し、ASRを特徴付けるための原則的な方法を提案する。
CarRacing と VizDoom の実証実験の結果は,ASR を政策学習に活用する上で,明らかな優位性を示している。
論文 参考訳(メタデータ) (2021-10-12T03:16:26Z) - CDEvalSumm: An Empirical Study of Cross-Dataset Evaluation for Neural
Summarization Systems [121.78477833009671]
データセット間設定下での様々な要約モデルの性能について検討する。
異なるドメインの5つのデータセットに対する11の代表的な要約システムに関する包括的な研究は、モデルアーキテクチャと生成方法の影響を明らかにしている。
論文 参考訳(メタデータ) (2020-10-11T02:19:15Z) - Randomized Value Functions via Posterior State-Abstraction Sampling [21.931580762349096]
我々は、潜在タスク構造を探究するエージェントは、その構造に対する不確実性を明確に表現し、維持する必要があると論じる。
本稿では、状態抽象化と抽象状態値の2つの後続分布を用いて、これを実現するための実用的なアルゴリズムを提案する。
私たちのアプローチを実証的に検証すると、マルチタスク設定でかなりのパフォーマンス向上が得られます。
論文 参考訳(メタデータ) (2020-10-05T23:04:18Z) - A Dependency Syntactic Knowledge Augmented Interactive Architecture for
End-to-End Aspect-based Sentiment Analysis [73.74885246830611]
エンドツーエンドABSAのためのマルチタスク学習を用いた対話型アーキテクチャを新たに提案する。
このモデルは、よく設計された依存性関係埋め込みグラフ畳み込みネットワーク(DreGcn)を活用することで、構文知識(依存性関係と型)を完全に活用することができる。
3つのベンチマークデータセットの大規模な実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2020-04-04T14:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。