論文の概要: Learning Explainable and Better Performing Representations of POMDP Strategies
- arxiv url: http://arxiv.org/abs/2401.07656v4
- Date: Wed, 02 Oct 2024 12:12:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-03 15:17:46.530360
- Title: Learning Explainable and Better Performing Representations of POMDP Strategies
- Title(参考訳): POMDP戦略の説明可能かつ優れた表現法を学習する
- Authors: Alexander Bork, Debraj Chakraborty, Kush Grover, Jan Kretinsky, Stefanie Mohr,
- Abstract要約: L*-アルゴリズムの修正を用いて戦略のオートマトン表現を学習する手法を提案する。
POMDPから直接オートマトンを合成するアプローチとは対照的に、我々のアプローチは比較にならないほどスケーラブルである。
- 参考スコア(独自算出の注目度): 40.325359811289445
- License:
- Abstract: Strategies for partially observable Markov decision processes (POMDP) typically require memory. One way to represent this memory is via automata. We present a method to learn an automaton representation of a strategy using a modification of the L*-algorithm. Compared to the tabular representation of a strategy, the resulting automaton is dramatically smaller and thus also more explainable. Moreover, in the learning process, our heuristics may even improve the strategy's performance. In contrast to approaches that synthesize an automaton directly from the POMDP thereby solving it, our approach is incomparably more scalable.
- Abstract(参考訳): 部分的に観測可能なマルコフ決定プロセス(POMDP)の戦略は、通常メモリを必要とする。
このメモリを表現する方法のひとつにautomaticaがある。
L*-アルゴリズムの修正を用いて戦略のオートマトン表現を学習する手法を提案する。
戦略の表表表現と比較すると、結果のオートマトンは劇的に小さくなり、より説明しやすい。
さらに、学習過程において、我々のヒューリスティックスは戦略のパフォーマンスも改善する可能性がある。
オートマトンをPOMDPから直接合成して解決するアプローチとは対照的に,我々のアプローチは比較にならないほどスケーラブルである。
関連論文リスト
- SIKeD: Self-guided Iterative Knowledge Distillation for mathematical reasoning [49.29200323760457]
大きな言語モデル(LLM)は、推論スキルをより小さなモデルに転送することができる。
より小さなモデルは蒸留時に全ての戦略にLLM分布を適合させるほど表現力に乏しい。
この1つの戦略への依存は、より小さなモデルにおいて、望ましい戦略で困難な推論タスクを解決しようとするときに、課題となる。
論文 参考訳(メタデータ) (2024-10-24T09:29:18Z) - PartIR: Composing SPMD Partitioning Strategies for Machine Learning [1.145010277058103]
NNパーティショニングシステムの設計であるPartIRについて述べる。
PartIRは書き直しに対する漸進的なアプローチに重点を置いており、ハードウェアとランタイムに依存しない。
予測可能性,表現性,ピーク性能に到達する能力を示すために,いくつかの異なるモデルでPartIRを評価した。
論文 参考訳(メタデータ) (2024-01-20T10:30:31Z) - Provably Efficient Representation Learning with Tractable Planning in
Low-Rank POMDP [81.00800920928621]
部分的に観測可能なマルコフ決定過程(POMDP)における表現学習の研究
まず,不確実性(OFU)に直面した最大推定(MLE)と楽観性を組み合わせた復調性POMDPのアルゴリズムを提案する。
次に、このアルゴリズムをより広範な$gamma$-observable POMDPのクラスで機能させる方法を示す。
論文 参考訳(メタデータ) (2023-06-21T16:04:03Z) - Dynamic Context Pruning for Efficient and Interpretable Autoregressive Transformers [29.319666323947708]
本稿では,モデル表現性を保ちながら文脈情報を動的に生成する手法を提案する。
本手法では,文脈からどの非形式的トークンをドロップできるかを学習可能なメカニズムを用いて決定する。
我々の参照実装は、推論スループットの増大とメモリの節約を最大2ドルまで達成します。
論文 参考訳(メタデータ) (2023-05-25T07:39:41Z) - Strategy Synthesis in Markov Decision Processes Under Limited Sampling
Access [3.441021278275805]
グレーボックスマルコフ決定プロセス(MDP)によってモデル化された環境において、エージェントの作用の影響は後継状態の点で知られているが、関連する合成は知られていない。
本稿では,区間型MDPを内部モデルとして用いた強化学習により,グレーボックス型MDPの戦略アルゴリズムを考案する。
論文 参考訳(メタデータ) (2023-03-22T16:58:44Z) - Model-free Representation Learning and Exploration in Low-rank MDPs [64.72023662543363]
低位mdpに対して,最初のモデルフリー表現学習アルゴリズムを提案する。
主要なアルゴリズムの貢献は新しいミニマックス表現の学習の目的です。
結果は複雑な環境にスケールする一般的な関数近似を収容できます。
論文 参考訳(メタデータ) (2021-02-14T00:06:54Z) - Effective Unsupervised Domain Adaptation with Adversarially Trained
Language Models [54.569004548170824]
注意的なマスキング戦略は、マスキングされた言語モデルの知識ギャップを橋渡しできることを示す。
本稿では,これらのトークンを逆さまにマスキングすることで効果的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-10-05T01:49:47Z) - Prototypical Contrastive Learning of Unsupervised Representations [171.3046900127166]
原型コントラスト学習(Prototypeal Contrastive Learning, PCL)は、教師なし表現学習法である。
PCLは暗黙的にデータのセマンティック構造を学習された埋め込み空間にエンコードする。
PCLは、複数のベンチマークで最先端のインスタンスワイド・コントラスト学習法より優れている。
論文 参考訳(メタデータ) (2020-05-11T09:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。