Fugu-MT 論文翻訳(概要): Hierarchical State Abstraction Based on Structural Information Principles

論文の概要: Hierarchical State Abstraction Based on Structural Information Principles

arxiv url: http://arxiv.org/abs/2304.12000v1
Date: Mon, 24 Apr 2023 11:06:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-25 15:12:37.067190
Title: Hierarchical State Abstraction Based on Structural Information Principles
Title（参考訳）: 構造情報原理に基づく階層的状態抽象化
Authors: Xianghua Zeng, Hao Peng, Angsheng Li, Chunyang Liu, Lifang He, Philip S. Yu
Abstract要約: 本稿では、情報理論の観点から、新しい数学的構造情報原理に基づく状態抽象化フレームワーク、すなわちSISAを提案する。 SISAは、様々な表現学習目標と柔軟に統合され、パフォーマンスをさらに向上する一般的なフレームワークである。
参考スコア（独自算出の注目度）: 70.24495170921075
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: State abstraction optimizes decision-making by ignoring irrelevant environmental information in reinforcement learning with rich observations. Nevertheless, recent approaches focus on adequate representational capacities resulting in essential information loss, affecting their performances on challenging tasks. In this article, we propose a novel mathematical Structural Information principles-based State Abstraction framework, namely SISA, from the information-theoretic perspective. Specifically, an unsupervised, adaptive hierarchical state clustering method without requiring manual assistance is presented, and meanwhile, an optimal encoding tree is generated. On each non-root tree node, a new aggregation function and condition structural entropy are designed to achieve hierarchical state abstraction and compensate for sampling-induced essential information loss in state abstraction. Empirical evaluations on a visual gridworld domain and six continuous control benchmarks demonstrate that, compared with five SOTA state abstraction approaches, SISA significantly improves mean episode reward and sample efficiency up to 18.98 and 44.44%, respectively. Besides, we experimentally show that SISA is a general framework that can be flexibly integrated with different representation-learning objectives to improve their performances further.
Abstract（参考訳）: 状態抽象化は、豊かな観察を伴う強化学習において無関係な環境情報を無視して意思決定を最適化する。それにもかかわらず、近年のアプローチでは、適切な表現能力に焦点が当てられ、重要な情報損失をもたらし、課題タスクのパフォーマンスに影響を与えている。本稿では,情報理論の観点から,新しい数学的構造情報原理に基づく状態抽象化フレームワークであるsisaを提案する。具体的には、手動の補助を必要としない教師なし適応階層的状態クラスタリング法を示し、一方、最適な符号化木を生成する。各非ルート木ノード上では,階層的状態抽象化を実現するために,新しい集約関数と条件構造エントロピーが設計され,状態抽象化におけるサンプリングによる本質的情報損失を補償する。視覚グリッドワールド領域と6つの連続制御ベンチマークに関する実証的な評価は、5つのSOTA状態抽象化アプローチと比較して、SISAは平均エピソード報酬とサンプル効率をそれぞれ18.98と44.44%に改善していることを示している。さらに,SISAは様々な表現学習目標と柔軟に統合し,パフォーマンスをさらに向上する汎用フレームワークであることを実験的に示す。

関連論文リスト

"Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文参考訳（メタデータ） (2025-03-11T17:59:41Z)
Structural Entropy Guided Probabilistic Coding [52.01765333755793]
構造エントロピー誘導型確率的符号化モデルSEPCを提案する。我々は、構造エントロピー正規化損失を提案することにより、潜在変数間の関係を最適化に組み込む。分類タスクと回帰タスクの両方を含む12の自然言語理解タスクに対する実験結果は、SEPCの優れた性能を示す。
論文参考訳（メタデータ） (2024-12-12T00:37:53Z)
Effective Exploration Based on the Structural Information Principles [21.656199029188056]
本稿では,新しい構造情報原則に基づく有効探索フレームワーク,すなわちSI2Eを提案する。 SI2Eは, 最終性能と試料効率に関して, 最先端の探査基準を著しく上回ることを示す。
論文参考訳（メタデータ） (2024-10-09T07:19:16Z)
Effective Reinforcement Learning Based on Structural Information Principles [19.82391136775341]
本稿では, 効率的な意思決定・意思決定のための, 新規で汎用的な構造情報原則に基づくフレームワーク,すなわちSIDMを提案する。 SIDMは、様々な単一エージェントおよびマルチエージェントRLアルゴリズムに柔軟に組み込むことができ、その性能を向上させることができる。
論文参考訳（メタデータ） (2024-04-15T13:02:00Z)
Consciousness-Inspired Spatio-Temporal Abstractions for Better Generalization in Reinforcement Learning [83.41487567765871]
Skipperはモデルベースの強化学習フレームワークである。これは、与えられたタスクをより小さく、より管理しやすいサブタスクに自動的に一般化する。環境の関連部分には、スパースな意思決定と集中した抽象化を可能にする。
論文参考訳（メタデータ） (2023-09-30T02:25:18Z)
A Direct Approximation of AIXI Using Logical State Abstractions [6.570488724773507]
本稿では,強化学習エージェントに対するベイズ最適性の概念である AIXI と論理状態抽象化の実践的統合を提案する。状態抽象化を形成するための機能の適切なサブセットを選択するという問題に対処する。その後、抽象状態列上のコンテキストツリー重み付けの適切な一般化を用いて、厳密なベイズモデル学習が達成される。
論文参考訳（メタデータ） (2022-10-13T11:30:56Z)
Causal Dynamics Learning for Task-Independent State Abstraction [61.707048209272884]
タスク独立状態抽象化(CDL)のための因果ダイナミクス学習を導入する。 CDLは、状態変数とアクションの間の不要な依存関係を取り除く理論的に証明された因果ダイナミクスモデルを学ぶ。状態抽象化は、学習されたダイナミクスから導き出すことができる。
論文参考訳（メタデータ） (2022-06-27T17:02:53Z)
MINER: Improving Out-of-Vocabulary Named Entity Recognition from an Information Theoretic Perspective [57.19660234992812]
NERモデルは標準のNERベンチマークで有望な性能を達成した。近年の研究では、従来のアプローチはエンティティ参照情報に過度に依存し、OoV(out-of-vocabulary)エンティティ認識の性能が劣っていることが示されている。我々は、情報理論の観点からこの問題を改善するための新しいNER学習フレームワークであるMINERを提案する。
論文参考訳（メタデータ） (2022-04-09T05:18:20Z)
Dynamic probabilistic logic models for effective abstractions in RL [35.54018388244684]
RePReLは階層的なフレームワークであり、リレーショナルプランナーを利用して学習に有用な状態抽象化を提供する。実験の結果,RePReLは手前のタスクに対して,優れた性能と効率的な学習を実現するだけでなく,目に見えないタスクに対するより優れた一般化も示している。
論文参考訳（メタデータ） (2021-10-15T18:53:04Z)
Action-Sufficient State Representation Learning for Control with Structural Constraints [21.47086290736692]
本稿では,部分的に観測可能な環境に焦点をあて,意思決定に十分な情報を収集する,最小限の状態表現の集合を学習することを提案する。システム内の変数間の構造的関係のための生成環境モデルを構築し、ASRを特徴付けるための原則的な方法を提案する。 CarRacing と VizDoom の実証実験の結果は,ASR を政策学習に活用する上で,明らかな優位性を示している。
論文参考訳（メタデータ） (2021-10-12T03:16:26Z)
CDEvalSumm: An Empirical Study of Cross-Dataset Evaluation for Neural Summarization Systems [121.78477833009671]
データセット間設定下での様々な要約モデルの性能について検討する。異なるドメインの5つのデータセットに対する11の代表的な要約システムに関する包括的な研究は、モデルアーキテクチャと生成方法の影響を明らかにしている。
論文参考訳（メタデータ） (2020-10-11T02:19:15Z)
Randomized Value Functions via Posterior State-Abstraction Sampling [21.931580762349096]
我々は、潜在タスク構造を探究するエージェントは、その構造に対する不確実性を明確に表現し、維持する必要があると論じる。本稿では、状態抽象化と抽象状態値の2つの後続分布を用いて、これを実現するための実用的なアルゴリズムを提案する。私たちのアプローチを実証的に検証すると、マルチタスク設定でかなりのパフォーマンス向上が得られます。
論文参考訳（メタデータ） (2020-10-05T23:04:18Z)
A Dependency Syntactic Knowledge Augmented Interactive Architecture for End-to-End Aspect-based Sentiment Analysis [73.74885246830611]
エンドツーエンドABSAのためのマルチタスク学習を用いた対話型アーキテクチャを新たに提案する。このモデルは、よく設計された依存性関係埋め込みグラフ畳み込みネットワーク(DreGcn)を活用することで、構文知識(依存性関係と型)を完全に活用することができる。 3つのベンチマークデータセットの大規模な実験結果から,本手法の有効性が示された。
論文参考訳（メタデータ） (2020-04-04T14:59:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。