論文の概要: Learning Causal States Under Partial Observability and Perturbation
- arxiv url: http://arxiv.org/abs/2512.00357v1
- Date: Sat, 29 Nov 2025 06:56:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.191766
- Title: Learning Causal States Under Partial Observability and Perturbation
- Title(参考訳): 部分的可観測性と摂動下における因果状態の学習
- Authors: Na Li, Hangguan Shan, Wei Ni, Wenjie Zhang, Xinyu Li, Yamin Wang,
- Abstract要約: 既存の手法では、部分的な可観測性に対処しながら摂動を緩和できない。
Asynchronous Diffusion Model (CaDiff) に基づくtextitCausal State Representationを提案する。
CaDiffは、理論的な厳密さと実用性の両方で拡散モデルを用いて因果状態を近似する最初のフレームワークである。
- 参考スコア(独自算出の注目度): 29.533770208192845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A critical challenge for reinforcement learning (RL) is making decisions based on incomplete and noisy observations, especially in perturbed and partially observable Markov decision processes (P$^2$OMDPs). Existing methods fail to mitigate perturbations while addressing partial observability. We propose \textit{Causal State Representation under Asynchronous Diffusion Model (CaDiff)}, a framework that enhances any RL algorithm by uncovering the underlying causal structure of P$^2$OMDPs. This is achieved by incorporating a novel asynchronous diffusion model (ADM) and a new bisimulation metric. ADM enables forward and reverse processes with different numbers of steps, thus interpreting the perturbation of P$^2$OMDP as part of the noise suppressed through diffusion. The bisimulation metric quantifies the similarity between partially observable environments and their causal counterparts. Moreover, we establish the theoretical guarantee of CaDiff by deriving an upper bound for the value function approximation errors between perturbed observations and denoised causal states, reflecting a principled trade-off between approximation errors of reward and transition-model. Experiments on Roboschool tasks show that CaDiff enhances returns by at least 14.18\% compared to baselines. CaDiff is the first framework that approximates causal states using diffusion models with both theoretical rigor and practicality.
- Abstract(参考訳): 強化学習(RL)における重要な課題は、特に摂動的かつ部分的に観察可能なマルコフ決定過程(P$^2$OMDPs)において、不完全でノイズの多い観測に基づいて決定を行うことである。
既存の手法では、部分的な可観測性に対処しながら摂動を緩和できない。
本稿では,P$^2$OMDPの因果構造を明らかにすることにより,任意のRLアルゴリズムを向上するフレームワークである,非同期拡散モデル(CaDiff)に基づく‘textit{Causal State Representation’を提案する。
これは、新しい非同期拡散モデル(ADM)と新しいバイシミュレーションメトリックを組み込むことによって達成される。
ADMはステップ数が異なるフォワードおよびリバースプロセスを可能にし、拡散によって抑制されたノイズの一部としてP$^2$OMDPの摂動を解釈する。
バイシミュレーション計量は、部分的に観測可能な環境とその因果関係の類似性を定量化する。
さらに、摂動観測と因果状態の近似誤差の上限を導出し、報酬の近似誤差と遷移モデルとの原則的トレードオフを反映して、CaDiffの理論的保証を確立する。
Roboschoolのタスクの実験では、CaDiffはベースラインに比べて少なくとも14.18\%のリターンを向上している。
CaDiffは、理論的な厳密さと実用性の両方で拡散モデルを用いて因果状態を近似する最初のフレームワークである。
関連論文リスト
- Score-based Membership Inference on Diffusion Models [3.742113529511043]
拡散モデルに対するメンバーシップ推論攻撃(MIA)は、プライバシーの懸念が強まっている。
本稿では,拡散モデルが近似することを学習する予測ノイズベクトルに着目し,スコアベースMIAの理論的,実証的研究を行う。
提案手法は, トレーニングセットに近づき, メンバシップが明らかになるような, 近隣のトレーニングサンプルのカーネル重み付き局所平均に対して, 期待されたデノイザ出力が向けられることを示す。
論文 参考訳(メタデータ) (2025-09-29T16:28:55Z) - Rectified Diffusion Guidance for Conditional Generation [94.83538269086613]
CFGの背後にある理論を再検討し、不適切な組合せ係数(textiti.e.)が生成分布を期待的にシフトさせることを厳密に確認する。
提案手法は, 強みを考慮すれば, textbftextitform ソリューションが有効であることを示す。
実世界のデータに関する実証的な証拠は、我々の設計と既存の最先端拡散モデルとの整合性を実証している。
論文 参考訳(メタデータ) (2024-10-24T13:41:32Z) - On Diffusion Models for Multi-Agent Partial Observability: Shared Attractors, Error Bounds, and Composite Flow [37.433470342139685]
拡散モデルを用いたDEC-POMDPにおける局所的な行動観測履歴からのグローバルな状態の再構築について検討する。
深層学習近似誤差では、固定点が真の状態から逸脱し、偏差はヤコビアンランクと負の相関を持つ。
論文 参考訳(メタデータ) (2024-10-17T18:23:33Z) - Generative Fractional Diffusion Models [53.36835573822926]
我々は,その基礎となる力学に分数拡散過程を利用する,最初の連続時間スコアベース生成モデルを導入する。
実画像データを用いた評価では,GFDMはFIDが低い値で示されるように,画素幅の多様性と画質の向上を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:53:24Z) - Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative
Models [49.81937966106691]
我々は拡散モデルのデータ生成過程を理解するための非漸近理論のスイートを開発する。
従来の研究とは対照的に,本理論は基本的だが多目的な非漸近的アプローチに基づいて開発されている。
論文 参考訳(メタデータ) (2023-06-15T16:30:08Z) - Diffusion Causal Models for Counterfactual Estimation [18.438307666925425]
本稿では,観測画像データから因果構造を推定する作業について考察する。
Diff-SCMは,近年の発電エネルギーモデルの発展を基盤とした構造因果モデルである。
Diff-SCMはMNISTデータに基づくベースラインよりも現実的で最小限のデファクトアルを生成しており、ImageNetデータにも適用可能である。
論文 参考訳(メタデータ) (2022-02-21T12:23:01Z) - Estimation of Bivariate Structural Causal Models by Variational Gaussian
Process Regression Under Likelihoods Parametrised by Normalising Flows [74.85071867225533]
因果機構は構造因果モデルによって記述できる。
最先端の人工知能の大きな欠点の1つは、説明責任の欠如である。
論文 参考訳(メタデータ) (2021-09-06T14:52:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。