論文の概要: C-IDS: Solving Contextual POMDP via Information-Directed Objective
- arxiv url: http://arxiv.org/abs/2602.03939v1
- Date: Tue, 03 Feb 2026 19:00:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.23485
- Title: C-IDS: Solving Contextual POMDP via Information-Directed Objective
- Title(参考訳): C-IDS:情報指向オブジェクトによるコンテキストPOMDPの解決
- Authors: Chongyang Shi, Michael Dorothy, Jie Fu,
- Abstract要約: 本稿では,マルコフ決定過程における政策合成問題について考察する。
我々の目標は、累積リターンを同時に最大化し、基礎となる文脈に関する不確実性を積極的に減らすポリシーを設計することである。
我々は,情報指向目標を最大化するポリシーを合成するC-IDSアルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 10.82202704907442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the policy synthesis problem in contextual partially observable Markov decision processes (CPOMDPs), where the environment is governed by an unknown latent context that induces distinct POMDP dynamics. Our goal is to design a policy that simultaneously maximizes cumulative return and actively reduces uncertainty about the underlying context. We introduce an information-directed objective that augments reward maximization with mutual information between the latent context and the agent's observations. We develop the C-IDS algorithm to synthesize policies that maximize the information-directed objective. We show that the objective can be interpreted as a Lagrangian relaxation of the linear information ratio and prove that the temperature parameter is an upper bound on the information ratio. Based on this characterization, we establish a sublinear Bayesian regret bound over K episodes. We evaluate our approach on a continuous Light-Dark environment and show that it consistently outperforms standard POMDP solvers that treat the unknown context as a latent state variable, achieving faster context identification and higher returns.
- Abstract(参考訳): 我々は,環境が未知の潜在文脈によって制御され,異なるPOMDPダイナミクスを誘導する,文脈的に部分的に観測可能なマルコフ決定過程(CPOMDP)において,ポリシー合成問題を研究する。
我々の目標は、累積リターンを同時に最大化し、基礎となる文脈に関する不確実性を積極的に減らすポリシーを設計することである。
本稿では,潜伏状況とエージェントの観察結果の相互情報による報酬最大化を向上する情報指向型目標を提案する。
我々は,情報指向目標を最大化するポリシーを合成するC-IDSアルゴリズムを開発した。
線形情報比のラグランジアン緩和と解釈でき、温度パラメータが情報比の上限であることを証明する。
この特徴に基づいて、K エピソードに束縛された準線形ベイズ的後悔を確立する。
我々は、連続したLight-Dark環境における我々のアプローチを評価し、未知のコンテキストを潜在状態変数として扱い、より高速なコンテキスト識別とより高いリターンを実現する標準POMDPソルバを一貫して上回っていることを示す。
関連論文リスト
- Learning to Decide with Just Enough: Information-Theoretic Context Summarization for CMDPs [23.111877248835736]
コンテキストマルコフ決定プロセス(CMDP)は、外部信号の下でのシーケンシャルな意思決定のためのフレームワークを提供する。
本稿では,大言語モデル(LLM)を用いて文脈入力を低次元,意味的に豊かな要約に圧縮する情報理論の要約手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T02:52:24Z) - Differential Information Distribution: A Bayesian Perspective on Direct Preference Optimization [35.335072390336855]
対象ポリシーに参照ポリシーを更新するために必要な差分情報を学習する際の選好最適化の目標について検討する。
まず、DPOの対数比の報酬は、ターゲットポリシーに参照ポリシーを更新するために必要な差分情報をエンコードする場合に一意に正当化される。
第2に、DPOにおけるトレーニングのダイナミクスが、ログライクな状態の変化や政策探索の変化など、どの程度の頻度で観察されているかについて論じる。
論文 参考訳(メタデータ) (2025-05-29T17:59:50Z) - Salience-Invariant Consistent Policy Learning for Generalization in Visual Reinforcement Learning [12.9372563969007]
見えないシナリオにポリシーを一般化することは、視覚的強化学習において重要な課題である。
目に見えない環境では、不注意なピクセルがエージェントにタスク関連情報を含む表現を抽出させる可能性がある。
ゼロショット一般化のための効率的なフレームワークであるSalience-Invariant Consistent Policy Learningアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-12T12:00:16Z) - Certifiably Robust Policies for Uncertain Parametric Environments [57.2416302384766]
本稿ではパラメータ上の未知分布を持つパラメトリックマルコフ決定プロセス(MDP)に基づくフレームワークを提案する。
パラメータによって誘導される未知のサンプル環境に対するIMDPの学習と解析を行う。
当社のアプローチは,信頼度の高い政策のパフォーマンスに厳密な拘束力をもたらすことを示す。
論文 参考訳(メタデータ) (2024-08-06T10:48:15Z) - Age of Semantics in Cooperative Communications: To Expedite Simulation
Towards Real via Offline Reinforcement Learning [53.18060442931179]
協調リレー通信システムにおける状態更新のセマンティックス更新度を測定するための意味学年代(AoS)を提案する。
オンライン・ディープ・アクター・クリティック(DAC)学習手法を,政治時間差学習の枠組みに基づいて提案する。
そこで我々は,以前に収集したデータセットから最適制御ポリシーを推定する,新しいオフラインDAC方式を提案する。
論文 参考訳(メタデータ) (2022-09-19T11:55:28Z) - Occupancy Information Ratio: Infinite-Horizon, Information-Directed,
Parameterized Policy Search [21.850348833971722]
我々は、占領情報比(OIR)と呼ばれる、無限水平強化学習(RL)のための情報指向型目標を提案する。
OIRは、豊富な基盤構造を享受し、スケーラブルでモデルフリーなポリシーサーチ手法が自然に適用される目的を示す。
準コンカベ最適化と線形プログラミング理論をマルコフ決定過程に利用することにより、基礎となるモデルが知られている場合、OIR問題をコンカベプログラミング手法で変換・解けることを示す。
論文 参考訳(メタデータ) (2022-01-21T18:40:03Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。
本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。
プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文 参考訳(メタデータ) (2020-12-30T03:22:35Z) - Adversarial Mutual Information for Text Generation [62.974883143784616]
本稿では,テキスト生成フレームワーク(AMI:Adversarial Mutual Information)を提案する。
AMIは、ソースとターゲット間の共同相互作用を特定することを目的とした、新しいサドル点(min-max)最適化として形成される。
AMIは、最大相互情報のより狭い範囲に導かれる可能性があることを示す。
論文 参考訳(メタデータ) (2020-06-30T19:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。