Fugu-MT 論文翻訳(概要): Rethinking State Disentanglement in Causal Reinforcement Learning

論文の概要: Rethinking State Disentanglement in Causal Reinforcement Learning

arxiv url: http://arxiv.org/abs/2408.13498v1
Date: Sat, 24 Aug 2024 06:49:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-27 19:19:21.615376
Title: Rethinking State Disentanglement in Causal Reinforcement Learning
Title（参考訳）: 因果強化学習における状態分散の再考
Authors: Haiyao Cao, Zhen Zhang, Panpan Cai, Yuhang Liu, Jinan Zou, Ehsan Abbasnejad, Biwei Huang, Mingming Gong, Anton van den Hengel, Javen Qinfeng Shi,
Abstract要約: 因果性は、根底にある状態が識別可能性によって一意に回復できることを保証するための厳密な理論的支援を提供する。我々はこの研究ラインを再考し、RL固有のコンテキストを取り入れることで、潜在状態に対する以前の識別可能性分析における不要な仮定を低減できることを示した。本稿では, 従来手法の複雑な構造制約を, 遷移と報酬保存の2つの簡単な制約に置き換えることにより, 一般に部分的に観測可能なマルコフ決定過程(POMDP)を提案する。
参考スコア（独自算出の注目度）: 78.12976579620165
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: One of the significant challenges in reinforcement learning (RL) when dealing with noise is estimating latent states from observations. Causality provides rigorous theoretical support for ensuring that the underlying states can be uniquely recovered through identifiability. Consequently, some existing work focuses on establishing identifiability from a causal perspective to aid in the design of algorithms. However, these results are often derived from a purely causal viewpoint, which may overlook the specific RL context. We revisit this research line and find that incorporating RL-specific context can reduce unnecessary assumptions in previous identifiability analyses for latent states. More importantly, removing these assumptions allows algorithm design to go beyond the earlier boundaries constrained by them. Leveraging these insights, we propose a novel approach for general partially observable Markov Decision Processes (POMDPs) by replacing the complicated structural constraints in previous methods with two simple constraints for transition and reward preservation. With the two constraints, the proposed algorithm is guaranteed to disentangle state and noise that is faithful to the underlying dynamics. Empirical evidence from extensive benchmark control tasks demonstrates the superiority of our approach over existing counterparts in effectively disentangling state belief from noise.
Abstract（参考訳）: 雑音に対処する際の強化学習(RL)における重要な課題の1つは、潜在状態を観測から推定することである。因果性は、根底にある状態が識別可能性によって一意に回復できることを保証するための厳密な理論的支援を提供する。その結果、いくつかの既存の研究は、アルゴリズムの設計を支援するために因果的な視点から識別可能性を確立することに重点を置いている。しかしながら、これらの結果はしばしば、特定のRLコンテキストを無視する純粋に因果的な視点から導かれる。我々はこの研究ラインを再考し、RL固有のコンテキストを取り入れることで、潜在状態に対する以前の識別可能性分析における不要な仮定を低減できることを示した。さらに重要なのは、これらの仮定を削除することで、アルゴリズム設計は、それらによって制約された以前の境界を超えることができることだ。これらの知見を生かして、従来手法の複雑な構造的制約を遷移と報酬保存の2つの単純な制約に置き換えることで、一般に観測可能なマルコフ決定過程(POMDP)の新たなアプローチを提案する。この2つの制約により、提案アルゴリズムは、基礎となる力学に忠実な状態とノイズを乱すことが保証される。広範囲なベンチマーク制御タスクによる実証的な証拠は、我々のアプローチが既存の手法よりも優れていることを示す。

関連論文リスト

CTRLS: Chain-of-Thought Reasoning via Latent State-Transition [57.51370433303236]
チェーン・オブ・シント(CoT)推論は、大規模な言語モデルで複雑な問題を解釈可能な中間ステップに分解することを可能にする。我々は,遅延状態遷移を伴うマルコフ決定プロセス(MDP)としてCoT推論を定式化するフレームワークであるgroundingSを紹介する。我々は、ベンチマーク推論タスクにおける推論精度、多様性、探索効率の改善を示す。
論文参考訳（メタデータ） (2025-07-10T21:32:18Z)
Lost at the Beginning of Reasoning [82.18834329384514]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。モデル自己補正能力を体系的に評価するために、意図的に欠陥のある第1の推論ステップで構築された新しいベンチマークを導入する。
論文参考訳（メタデータ） (2025-06-27T09:53:57Z)
The Curse of CoT: On the Limitations of Chain-of-Thought in In-Context Learning [39.613595533503144]
CoT(Chain-of-Thought)プロンプトは、大規模言語モデルにおける推論能力を高める能力として広く認識されている。 CoTは、様々なモデルスケールやベンチマークの複雑さに対して、直接応答を一貫して過小評価していることを示す。パターンベースICLにおけるCoTの性能を駆動する基本的明示的双対性を明らかにする。
論文参考訳（メタデータ） (2025-04-07T13:51:06Z)
Do We Need to Verify Step by Step? Rethinking Process Supervision from a Theoretical Perspective [59.61868506896214]
標準的なデータカバレッジの仮定では、強化学習はプロセスの監督よりも統計的に難しいものではない。任意のポリシーの利点関数が最適なプロセス報酬モデルとして機能することを証明する。
論文参考訳（メタデータ） (2025-02-14T22:21:56Z)
Sound Heuristic Search Value Iteration for Undiscounted POMDPs with Reachability Objectives [16.101435842520473]
本稿では,POMDPにおける最大到達可能性確率問題(indefinite-horizon)と呼ばれる問題について検討する。割引問題に対するポイントベース手法の成功に触発され,MRPPへの拡張について検討した。本稿では,これらの手法の強みを有効活用し,信念空間を効率的に探索するアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-06-05T02:33:50Z)
A General Causal Inference Framework for Cross-Sectional Observational Data [0.4972323953932129]
断面観測データに特化して設計された一般因果推論(GCI)フレームワーク。本稿では,断面観測データを対象としたGCIフレームワークを提案する。
論文参考訳（メタデータ） (2024-04-28T14:26:27Z)
Markov Decision Processes with Noisy State Observation [0.0]
本稿では,マルコフ決定過程(MDP)における特定のノイズ状態観測の課題について述べる。我々は、真の状態を誤認する確率を捉える混乱行列を用いて、この不確実性をモデル化することに集中する。そこで本研究では,本研究で提案する2つの提案手法について述べる。
論文参考訳（メタデータ） (2023-12-13T21:50:38Z)
Provable Representation with Efficient Planning for Partial Observable Reinforcement Learning [74.67655210734338]
ほとんどの実世界の強化学習アプリケーションでは、状態情報は部分的にしか観測できないため、マルコフ決定プロセスの仮定を破る。我々は、部分的な観察から実践的な強化学習のためのコヒーレントな枠組みと抽出可能なアルゴリズムアプローチへと導く表現に基づく視点を開発する。提案アルゴリズムは,様々なベンチマークで部分的な観察を行い,最先端の性能を超えることができることを実証的に実証した。
論文参考訳（メタデータ） (2023-11-20T23:56:58Z)
Causal Representation Learning Made Identifiable by Grouping of Observational Variables [8.157856010838382]
因果表現学習(Causal Representation Learning)は、データ駆動型で隠れた機能の因果モデルを学ぶことを目的としている。ここでは、新規で弱い制約に基づく識別可能性を示す。また,モデルに整合した新たな自己教師付き推定フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-24T10:38:02Z)
Spectral Decomposition Representation for Reinforcement Learning [100.0424588013549]
本稿では, スペクトル分解表現法(SPEDER)を提案する。この手法は, データ収集ポリシーに急激な依存を生じさせることなく, ダイナミックスから状態-作用の抽象化を抽出する。理論的解析により、オンライン設定とオフライン設定の両方において提案アルゴリズムのサンプル効率が確立される。実験により、いくつかのベンチマークで現在の最先端アルゴリズムよりも優れた性能を示す。
論文参考訳（メタデータ） (2022-08-19T19:01:30Z)
Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-06-08T04:09:13Z)
Instance-Dependent Confidence and Early Stopping for Reinforcement Learning [99.57168572237421]
強化学習(RL)のための様々なアルゴリズムは、その収束率の劇的な変動を問題構造の関数として示している。この研究は、観察されたパフォーマンスの違いについて、textitexを説明する保証を提供する。次の自然なステップは、これらの理論的保証を実際に有用なガイドラインに変換することです。
論文参考訳（メタデータ） (2022-01-21T04:25:35Z)
On the Minimal Adversarial Perturbation for Deep Neural Networks with Provable Estimation Error [65.51757376525798]
敵の摂動の存在は、証明可能な堅牢性に関する興味深い研究ラインを開いた。検証可能な結果は、コミットしたエラーを見積り、バウンドするものではない。本稿では,最小対向摂動を求めるための2つの軽量戦略を提案する。その結果, 提案手法は, 分類に近い試料の理論的距離とロバスト性を近似し, 敵攻撃に対する確実な保証が得られた。
論文参考訳（メタデータ） (2022-01-04T16:40:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。