論文の概要: Inferring Reward Machines and Transition Machines from Partially Observable Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2508.01947v1
- Date: Sun, 03 Aug 2025 22:53:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.126264
- Title: Inferring Reward Machines and Transition Machines from Partially Observable Markov Decision Processes
- Title(参考訳): 部分観測可能なマルコフ決定過程からの逆機械と遷移機械の推算
- Authors: Yuly Wu, Jiamou Liu, Libo Zhang,
- Abstract要約: 非マルコビアン性を扱うためのオートマトンを推定することは、有効なアプローチであるが、2つの制限に直面している。
そこで本研究では, TMとRMを併用したDBMM(Dual Behavior Mealy Machine)を提案する。
次に,DBMMを効率よく推論し,先行作業に必要なコスト削減を回避した受動的自動学習アルゴリズムDB-RPNIを紹介する。
- 参考スコア(独自算出の注目度): 13.173882985068218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Partially Observable Markov Decision Processes (POMDPs) are fundamental to many real-world applications. Although reinforcement learning (RL) has shown success in fully observable domains, learning policies from traces in partially observable environments remains challenging due to non-Markovian observations. Inferring an automaton to handle the non-Markovianity is a proven effective approach, but faces two limitations: 1) existing automaton representations focus only on reward-based non-Markovianity, leading to unnatural problem formulations; 2) inference algorithms face enormous computational costs. For the first limitation, we introduce Transition Machines (TMs) to complement existing Reward Machines (RMs). To develop a unified inference algorithm for both automata types, we propose the Dual Behavior Mealy Machine (DBMM) that subsumes both TMs and RMs. We then introduce DB-RPNI, a passive automata learning algorithm that efficiently infers DBMMs while avoiding the costly reductions required by prior work. We further develop optimization techniques and identify sufficient conditions for inferring the minimal correct automata. Experimentally, our inference method achieves speedups of up to three orders of magnitude over SOTA baselines.
- Abstract(参考訳): 部分的に観測可能なマルコフ決定プロセス (POMDP) は多くの実世界のアプリケーションに基本である。
強化学習(RL)は、完全に観測可能な領域で成功したが、部分的に観測可能な環境におけるトレースからの学習ポリシーは、マルコフ的でない観測のために難しいままである。
非マルコビアン性を扱うためにオートマトンを推論することは、証明された効果的なアプローチであるが、2つの制限に直面している。
1) 既存のオートマトン表現は報酬に基づく非マルコビアン性にのみ焦点をあて、不自然な問題定式化につながる。
2)推論アルゴリズムは膨大な計算コストに直面している。
最初の制限として、既存のリワードマシン(RM)を補完するトランジションマシン(TM)を導入する。
そこで本研究では, TMとRMを併用したDBMM(Dual Behavior Mealy Machine)を提案する。
次に,DBMMを効率よく推論し,先行作業に必要なコスト削減を回避した受動的自動学習アルゴリズムDB-RPNIを紹介する。
さらに最適化手法を開発し、最小限の正解度を推定するのに十分な条件を同定する。
提案手法は,SOTAベースライン上で最大3桁の高速化を実現する。
関連論文リスト
- Uncertainty-Based Methods for Automated Process Reward Data Construction and Output Aggregation in Mathematical Reasoning [10.227089771963943]
本稿では,自動プロセス報酬データ構築のための不確実性駆動型フレームワークを提案する。
本稿では,2つの一般的な不確実性を考慮した出力アグリゲーション手法を提案する。
ProcessBench、MATH、GSMPlusの実験では、提案したPRMデータ構築フレームワークの有効性と効率が示されている。
論文 参考訳(メタデータ) (2025-08-03T14:14:13Z) - Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。
評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文 参考訳(メタデータ) (2025-03-27T08:52:41Z) - Robust Machine Unlearning for Quantized Neural Networks via Adaptive Gradient Reweighting with Similar Labels [5.868949328814509]
モデル量子化は、低ビットパラメータ表現によるエッジデバイスへのディープニューラルネットワークの効率的な展開を可能にする。
既存のマシン・アンラーニング(MU)手法は量子化されたネットワークにおける2つの基本的な制限に対処できない。
本稿では,量子化モデルのための学習フレームワークQ-MULを提案する。
論文 参考訳(メタデータ) (2025-03-18T05:22:13Z) - DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving [62.62464518137153]
DriveTransformerは、スケールアップを簡単にするためのシンプルなE2E-ADフレームワークである。
タスク・セルフ・アテンション、センサー・クロス・アテンション、時間的クロス・アテンションという3つの統合された操作で構成されている。
シミュレーションされたクローズドループベンチマークBench2Driveと、FPSの高い実世界のオープンループベンチマークnuScenesの両方で、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-07T11:41:18Z) - Coarse-to-Fine Process Reward Modeling for Mathematical Reasoning [11.15613673478208]
プロセス・リワード・モデル (Process Reward Model, PRM) は数学的推論において重要な役割を担い、高品質なプロセスデータを必要とする。
我々は,Large Language Models (LLM) が生成する推論ステップが,厳密なインクリメンタルな情報表示に失敗することが多く,冗長性が生じることを観察する。
本稿では,冗長なステップを検出するための簡易かつ効果的な粗大な戦略CFPRMを提案する。
論文 参考訳(メタデータ) (2025-01-23T12:44:45Z) - DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - Tractable Offline Learning of Regular Decision Processes [50.11277112628193]
この研究は、正則決定過程(RDP)と呼ばれる非マルコフ環境のクラスにおけるオフライン強化学習(RL)を研究する。
インスは、未来の観測と過去の相互作用からの報酬の未知の依存を実験的に捉えることができる。
多くのアルゴリズムは、まずこの未知の依存関係を自動学習技術を用いて再構築する。
論文 参考訳(メタデータ) (2024-09-04T14:26:58Z) - Unsupervised Automata Learning via Discrete Optimization [7.06671668667062]
与えられたラベルなし単語の多元集合から決定論的有限オートマトン(DFA)を学習するためのフレームワークを提案する。
この問題は計算的に困難であることが示され,制約最適化に基づく3つの学習アルゴリズムが開発された。
DFAの全体的な解釈性を改善するため,最適化問題に対する新たな正規化手法を導入する。
論文 参考訳(メタデータ) (2023-03-24T16:19:15Z) - Online Learning under Budget and ROI Constraints via Weak Adaptivity [57.097119428915796]
制約付きオンライン学習問題に対する既存の原始双対アルゴリズムは、2つの基本的な仮定に依存している。
このような仮定は、標準の原始双対テンプレートを弱適応的後悔最小化器で与えることによって、どのように回避できるのかを示す。
上記の2つの前提が満たされていない場合に保証される、世界の最高の保証を証明します。
論文 参考訳(メタデータ) (2023-02-02T16:30:33Z) - Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline
Reinforcement Learning [114.36124979578896]
オフライン強化学習アルゴリズムを用いて動的メカニズムを設計する。
我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度な仮定しか必要としない。
論文 参考訳(メタデータ) (2022-05-05T05:44:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。