Fugu-MT 論文翻訳(概要): Efficient Reinforcement Learning from Partial Observability

論文の概要: Efficient Reinforcement Learning from Partial Observability

arxiv url: http://arxiv.org/abs/2311.12244v2
Date: Sun, 11 Feb 2024 22:28:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-13 21:46:19.879453
Title: Efficient Reinforcement Learning from Partial Observability
Title（参考訳）: 部分観測性からの効率的な強化学習
Authors: Hongming Zhang, Tongzheng Ren, Chenjun Xiao, Dale Schuurmans, Bo Dai
Abstract要約: ほとんどの実世界の強化学習アプリケーションでは、状態情報は部分的にしか観測できないため、マルコフ決定プロセスの仮定を破る。我々は、部分的な観察から実践的な強化学習のためのコヒーレントな枠組みと抽出可能なアルゴリズムアプローチへと導く表現に基づく視点を開発する。提案アルゴリズムは,様々なベンチマークで部分的な観察を行い,最先端の性能を超えることができることを実証的に実証した。
参考スコア（独自算出の注目度）: 80.11643679551042
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In most real-world reinforcement learning applications, state information is only partially observable, which breaks the Markov decision process assumption and leads to inferior performance for algorithms that conflate observations with state. Partially Observable Markov Decision Processes (POMDPs), on the other hand, provide a general framework that allows for partial observability to be accounted for in learning, exploration and planning, but presents significant computational and statistical challenges. To address these difficulties, we develop a representation-based perspective that leads to a coherent framework and tractable algorithmic approach for practical reinforcement learning from partial observations. We provide a theoretical analysis for justifying the statistical efficiency of the proposed algorithm, and also empirically demonstrate the proposed algorithm can surpass state-of-the-art performance with partial observations across various benchmarks, advancing reliable reinforcement learning towards more practical applications.
Abstract（参考訳）: ほとんどの実世界の強化学習アプリケーションでは、状態情報は部分的にしか観測できないため、マルコフ決定プロセスの仮定を破り、状態と観測を分割するアルゴリズムの性能は劣る。一方、部分的に観測可能なマルコフ決定プロセス(POMDPs)は、学習、探索、計画において部分観測可能性を説明するための一般的なフレームワークを提供するが、重要な計算および統計的課題を示す。これらの困難に対処するため,我々は,部分的観察から実践的な強化学習を行うためのコヒーレントな枠組みと扱いやすいアルゴリズム的アプローチをもたらす表現に基づく視点を開発する。我々は,提案アルゴリズムの統計的効率を正当化するための理論的解析を行い,提案アルゴリズムが様々なベンチマークで部分的な観測を行い,より実用的な応用に向けて信頼性の高い強化学習を推進できることを示す。

関連論文リスト

A Theory of Inference Compute Scaling: Reasoning through Directed Stochastic Skill Search [15.387256204743407]
大規模言語モデル(LLM)は、訓練と配備の間にかなりの計算量、エネルギー、財務資源を必要とする。推論コストは、今やリソース全体の負担の重要かつ増大する要素である。本稿では,学習したスキルグラフ上での推論を表現力として表現する一般的なフレームワークである有向スキルサーチ(DS3)を紹介する。
論文参考訳（メタデータ） (2025-06-10T14:47:48Z)
BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文参考訳（メタデータ） (2025-01-31T02:39:07Z)
Reinforcement Learning under Latent Dynamics: Toward Statistical and Algorithmic Modularity [51.40558987254471]
強化学習の現実的な応用は、エージェントが複雑な高次元の観察を行う環境を含むことが多い。本稿では,統計的・アルゴリズム的な観点から,textit General$ latent dynamicsの下での強化学習の課題に対処する。
論文参考訳（メタデータ） (2024-10-23T14:22:49Z)
Exogenous Matching: Learning Good Proposals for Tractable Counterfactual Estimation [1.9662978733004601]
本稿では, 抽出可能かつ効率的な対実表現推定のための重要サンプリング手法を提案する。対物推定器の共通上限を最小化することにより、分散最小化問題を条件分布学習問題に変換する。構造因果モデル (Structure Causal Models, SCM) の様々なタイプと設定による実験による理論的結果の検証と, 対実推定タスクにおける性能の実証を行った。
論文参考訳（メタデータ） (2024-10-17T03:08:28Z)
On Discriminative Probabilistic Modeling for Self-Supervised Representation Learning [85.75164588939185]
複数モーダルな)自己教師付き表現学習のための連続領域における識別確率モデル問題について検討する。我々は、自己教師付き表現学習における現在のInfoNCEに基づくコントラスト損失の制限を明らかにするために一般化誤差解析を行う。
論文参考訳（メタデータ） (2024-10-11T18:02:46Z)
Generalization bound for estimating causal effects from observational network data [25.055822137402746]
ネットワークシナリオにおける因果効果推定のための一般化法を導出する。1) 連立確率スコアに基づく再重み付けスキーマ,2) 積分確率メトリック(IPM)に基づく表現学習スキーマ。そこで本研究では,表現学習で強化した関節適合度スコアに基づく重み付け回帰法を提案する。
論文参考訳（メタデータ） (2023-08-08T03:14:34Z)
Dynamic deep-reinforcement-learning algorithm in Partially Observed Markov Decision Processes [6.729108277517129]
本研究は、部分的に観測可能なマルコフ決定過程を解くために、アクションシーケンス包含の利点を示す。開発したアルゴリズムは、異なる種類の外部乱れに対して、コントローラ性能の強化されたロバスト性を示した。
論文参考訳（メタデータ） (2023-07-29T08:52:35Z)
Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文参考訳（メタデータ） (2023-07-08T15:41:48Z)
Provably Efficient Representation Learning with Tractable Planning in Low-Rank POMDP [81.00800920928621]
部分的に観測可能なマルコフ決定過程(POMDP)における表現学習の研究まず,不確実性(OFU)に直面した最大推定(MLE)と楽観性を組み合わせた復調性POMDPのアルゴリズムを提案する。次に、このアルゴリズムをより広範な$gamma$-observable POMDPのクラスで機能させる方法を示す。
論文参考訳（メタデータ） (2023-06-21T16:04:03Z)
Representation Learning with Multi-Step Inverse Kinematics: An Efficient and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文参考訳（メタデータ） (2023-04-12T14:51:47Z)
Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-12-17T00:26:31Z)
RELAX: Representation Learning Explainability [10.831313203043514]
本稿では、帰属に基づく表現の説明のための最初のアプローチであるRELAXを提案する。 ReLAXは、入力とマスクアウトされた自身のバージョンの間の表現空間における類似性を測定することで表現を説明する。我々はRELAXの理論的解釈を提供し、教師なし学習を用いて訓練された特徴抽出器を新規に解析する。
論文参考訳（メタデータ） (2021-12-19T14:51:31Z)
Functional Regularization for Representation Learning: A Unified Theoretical Perspective [27.93916012334704]
教師なしおよび自己教師なしの学習アプローチは、下流予測タスクの表現を学習するための重要なツールとなっている。本稿では、ラベルなしデータを用いて学習可能な関数を通して表現に正規化を付与するものとして、このようなアプローチがいくつか考えられる統一的な視点を示す。本稿では,これらの手法のサンプル複雑性を分析するための識別的理論的枠組みを提案し,学習可能な正規化関数を実現するために(Balcan and Blum, 2010)の枠組みを一般化する。
論文参考訳（メタデータ） (2020-08-06T04:06:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。