論文の概要: The Partially Observable History Process
- arxiv url: http://arxiv.org/abs/2111.08102v1
- Date: Mon, 15 Nov 2021 22:00:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-17 15:26:59.939466
- Title: The Partially Observable History Process
- Title(参考訳): 部分的に観察可能な歴史過程
- Authors: Dustin Morrill, Amy R. Greenwald, Michael Bowling
- Abstract要約: 我々は、強化学習のための部分観測可能歴史過程(POHP)の定式化を導入する。
POHPは、単一のエージェントのアクションと観察を中心にして、他のプレイヤーの存在を抽象化する。
私たちのフォーマリズムは、アルゴリズムを設計するための合理化されたインターフェースを提供する。
- 参考スコア(独自算出の注目度): 17.08883385550155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the partially observable history process (POHP) formalism for
reinforcement learning. POHP centers around the actions and observations of a
single agent and abstracts away the presence of other players without reducing
them to stochastic processes. Our formalism provides a streamlined interface
for designing algorithms that defy categorization as exclusively single or
multi-agent, and for developing theory that applies across these domains. We
show how the POHP formalism unifies traditional models including the Markov
decision process, the Markov game, the extensive-form game, and their partially
observable extensions, without introducing burdensome technical machinery or
violating the philosophical underpinnings of reinforcement learning. We
illustrate the utility of our formalism by concisely exploring observable
sequential rationality, re-deriving the extensive-form regret minimization
(EFR) algorithm, and examining EFR's theoretical properties in greater
generality.
- Abstract(参考訳): 本稿では,強化学習のための部分可観測歴史プロセス(pohp)形式を導入する。
POHPは単一のエージェントの動作と観察を中心とし、確率過程に還元することなく他のプレイヤーの存在を抽象化する。
私たちのフォーマリズムは、アルゴリズムを設計するための合理化インターフェースを提供し、これらドメインにまたがって適用される理論を開発するために、専らシングルエージェントまたはマルチエージェントとして分類する。
我々は,pohp形式主義がマルコフ決定過程,マルコフゲーム,拡張形式ゲーム,およびそれらの部分的に観察可能な拡張など,従来のモデルとどのように統合するかを,重荷のかかる技術的機械の導入や強化学習の哲学的基盤に違反することなく示す。
我々は,観測可能な逐次的合理性を簡潔に探究し,efrアルゴリズムを再導出し,efrの理論特性をより汎用的に検証することにより,形式主義の有用性を示す。
関連論文リスト
- Sparks of Explainability: Recent Advancements in Explaining Large Vision Models [6.1642231492615345]
この論文は、ディープニューラルネットワークによって利用される特徴を分析し、モデル化することにより、コンピュータビジョンにおける説明可能性を改善するための高度なアプローチを探求する。
アルゴリズム的安定性に基づく計量とソボル指標を用いたアプローチを導入することにより、帰属法、特にサリエンシマップを評価する。
モデルと人間の推論を一致させ、概念的説明可能性アプローチを採用するという2つの仮説が検討されている。
論文 参考訳(メタデータ) (2025-02-03T04:49:32Z) - BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。
本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。
本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2025-01-31T02:39:07Z) - Axiomatic Causal Interventions for Reverse Engineering Relevance Computation in Neural Retrieval Models [20.29451537633895]
本稿では,ニューラルランサーのリバースエンジニアリングにおける因果介入法を提案する。
本稿では, 項周波数公理を満たす成分を分離するために, 機械的解釈可能性法をどのように利用できるかを示す。
論文 参考訳(メタデータ) (2024-05-03T22:30:15Z) - Bridging State and History Representations: Understanding Self-Predictive RL [24.772140132462468]
マルコフ決定過程(MDPs)と部分的に観測可能なマルコフ決定過程(POMDPs)のすべての強化学習(RL)手法の中核に表現がある
状態と歴史を抽象化するこれらの明らかに異なる方法やフレームワークの多くは、実際、自己予測的抽象化の共通概念に基づいています。
我々は、自己予測表現の学習において、停止段階技術のような広く採用されている目的と最適化に関する理論的洞察を提供する。
論文 参考訳(メタデータ) (2024-01-17T00:47:43Z) - Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。
本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文 参考訳(メタデータ) (2023-09-02T22:14:26Z) - Understanding Masked Autoencoders via Hierarchical Latent Variable
Models [109.35382136147349]
Masked Autoencoder (MAE) は近年,様々な視覚タスクにおいて顕著な成功を収めている。
MAEに関する興味深い経験的観察の出現にもかかわらず、理論的に原理化された理解はいまだに欠如している。
論文 参考訳(メタデータ) (2023-06-08T03:00:10Z) - Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。
この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。
本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-08T04:09:13Z) - A Free Lunch from the Noise: Provable and Practical Exploration for
Representation Learning [55.048010996144036]
ある雑音仮定の下では、対応するマルコフ遷移作用素の線型スペクトル特性を自由な閉形式で得られることを示す。
本稿では,スペクトルダイナミクス埋め込み(SPEDE)を提案する。これはトレードオフを破り,雑音の構造を利用して表現学習のための楽観的な探索を完遂する。
論文 参考訳(メタデータ) (2021-11-22T19:24:57Z) - This looks more like that: Enhancing Self-Explaining Models by
Prototypical Relevance Propagation [17.485732906337507]
本稿では,自己説明型ネットワークであるProtoPNetのアーティファクトのスペクトルの存在下でのケーススタディを示す。
より正確なモデル認識説明を生成するための新しい手法を提案する。
クリーンなデータセットを得るために,アーティファクト画像を分離するためのマルチビュークラスタリング戦略を提案する。
論文 参考訳(メタデータ) (2021-08-27T09:55:53Z) - On Contrastive Representations of Stochastic Processes [53.21653429290478]
プロセスの表現を学習することは、機械学習の新たな問題である。
本手法は,周期関数,3次元オブジェクト,動的プロセスの表現の学習に有効であることを示す。
論文 参考訳(メタデータ) (2021-06-18T11:00:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。