論文の概要: Reinforcement Learning with Action-Triggered Observations
- arxiv url: http://arxiv.org/abs/2510.02149v1
- Date: Thu, 02 Oct 2025 16:00:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.196269
- Title: Reinforcement Learning with Action-Triggered Observations
- Title(参考訳): アクショントリガーによる強化学習
- Authors: Alexander Ryabchenko, Wenlong Mou,
- Abstract要約: 動作トリガー型スポラジカルトレーサブルマルコフ決定プロセス(ATST-MDPs)
このフレームワークは、Action-Triggered Sporadically Traceable Markov Decision Processs (ATST-MDPs)として定式化されている。
エージェントが次の観察が来るまで一連のアクションを実行することをコミットするアクションシーケンス学習パラダイムを導入する。
- 参考スコア(独自算出の注目度): 46.88582659499577
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study reinforcement learning problems where state observations are stochastically triggered by actions, a constraint common in many real-world applications. This framework is formulated as Action-Triggered Sporadically Traceable Markov Decision Processes (ATST-MDPs), where each action has a specified probability of triggering a state observation. We derive tailored Bellman optimality equations for this framework and introduce the action-sequence learning paradigm in which agents commit to executing a sequence of actions until the next observation arrives. Under the linear MDP assumption, value-functions are shown to admit linear representations in an induced action-sequence feature map. Leveraging this structure, we propose off-policy estimators with statistical error guarantees for such feature maps and introduce ST-LSVI-UCB, a variant of LSVI-UCB adapted for action-triggered settings. ST-LSVI-UCB achieves regret $\widetilde O(\sqrt{Kd^3(1-\gamma)^{-3}})$, where $K$ is the number of episodes, $d$ the feature dimension, and $\gamma$ the discount factor (per-step episode non-termination probability). Crucially, this work establishes the theoretical foundation for learning with sporadic, action-triggered observations while demonstrating that efficient learning remains feasible under such observation constraints.
- Abstract(参考訳): 実世界の多くの応用に共通する制約である行動によって、状態観察が確率的に引き起こされる強化学習問題について検討する。
このフレームワークは、Action-Triggered Sporadically Traceable Markov Decision Processs (ATST-MDPs)として定式化され、各アクションは状態観察をトリガーする特定の確率を持つ。
本稿では,この枠組みのベルマン最適性方程式を導出し,エージェントが次の観測に到達するまで一連の行動を実行することを約束する行動系列学習パラダイムを導入する。
線形MDP仮定の下では、値関数は誘導された行動系列特徴写像に線形表現を持つことを示す。
この構造を応用して,このような特徴マップに対する統計的誤差保証付きオフポリティクス推定器を提案し,アクショントリガー設定に適応したLSVI-UCBの変種であるST-LSVI-UCBを紹介した。
ST-LSVI-UCBは、後悔の$\widetilde O(\sqrt{Kd^3(1-\gamma)^{-3}})$、$K$はエピソード数、$d$は特徴次元、$\gamma$はディスカウント係数(ステップ毎の非終端確率)を達成する。
重要なことは、この研究は、散発的かつアクショントリガー化された観察による学習の理論的基盤を確立しながら、効率的な学習がそのような観察制約の下で実現可能であることを証明している。
関連論文リスト
- Model Predictive Adversarial Imitation Learning for Planning from Observation [13.427459817316317]
我々はIRLのポリシーを計画に基づくエージェントに置き換える。
本研究は, 試料効率, 分布外一般化, 堅牢性に関する顕著な改善について検討し, 検討した。
論文 参考訳(メタデータ) (2025-07-29T06:52:52Z) - Anomalous Decision Discovery using Inverse Reinforcement Learning [3.3675535571071746]
異常検出は、知覚システムを通じて異常な行動を特定することによって、自律走行車(AV)において重要な役割を果たす。
現在のアプローチは、しばしば定義済みのしきい値や教師付き学習パラダイムに依存するが、目に見えないシナリオに直面すると効果が低下する。
異常検出のための新しいIRLフレームワークである Trajectory-Reward Guided Adaptive Pre-training (TRAP) を提案する。
論文 参考訳(メタデータ) (2025-07-06T17:01:02Z) - Outcome-Based Online Reinforcement Learning: Algorithms and Fundamental Limits [58.63897489864948]
結果に基づくフィードバックによる強化学習は、根本的な課題に直面します。
適切なアクションにクレジットを割り当てるには?
本稿では,一般関数近似を用いたオンラインRLにおけるこの問題の包括的解析を行う。
論文 参考訳(メタデータ) (2025-05-26T17:44:08Z) - Model-free Methods for Event History Analysis and Efficient Adjustment (PhD Thesis) [55.2480439325792]
この論文は、モデルフリーの観点から統一された統計学への独立した貢献のシリーズである。
第1章では、機械学習から予測技術を活用する柔軟なメソッドを定式化するために、モデルフリーの視点をどのように利用できるか、詳しく説明している。
第2章では、あるプロセスの進化が他のプロセスに直接影響されるかどうかを記述した地域独立の概念を研究している。
論文 参考訳(メタデータ) (2025-02-11T19:24:09Z) - Disentangling Action Sequences: Discovering Correlated Samples [6.179793031975444]
我々は、データ自体が要因ではなく非絡み合いにおいて重要な役割を担い、非絡み合い表現は潜在変数とアクションシーケンスとを一致させることを示した。
本稿では,アクションシーケンスをステップバイステップで切り離すための新しいフレームワークFVAEを提案する。
dSprites と 3D Chairs の実験結果から, FVAE は絡み合いの安定性を向上させることが示された。
論文 参考訳(メタデータ) (2020-10-17T07:37:50Z) - Extreme Memorization via Scale of Initialization [72.78162454173803]
我々は,初期化の規模を変えることが,SGDによって誘導される暗黙の正規化に強く影響を与える実験装置を構築する。
一般化能力に影響を及ぼす範囲と方法が、使用したアクティベーションと損失関数に依存することがわかった。
均質なReLU活性化の場合、この挙動は損失関数に起因することが示される。
論文 参考訳(メタデータ) (2020-08-31T04:53:11Z) - Foreseeing the Benefits of Incidental Supervision [83.08441990812636]
本稿では,実験を行なわずに,特定の目標タスクに対して,様々な種類の偶発信号の利点を定量化できるかどうかを考察する。
本稿では,PABI(PAC-Bayesian motivated informativeness measure)を提案する。
論文 参考訳(メタデータ) (2020-06-09T20:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。