論文の概要: From Pixels to Factors: Learning Independently Controllable State Variables for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.02484v1
- Date: Thu, 02 Oct 2025 18:43:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.133107
- Title: From Pixels to Factors: Learning Independently Controllable State Variables for Reinforcement Learning
- Title(参考訳): レンズから因子へ:強化学習のための独立制御可能な状態変数を学習する
- Authors: Rafael Rodriguez-Sanchez, Cameron Allen, George Konidaris,
- Abstract要約: Action-Controllable Factorization (ACF)は、独立に制御可能な潜伏変数を明らかにするための対照的な学習手法である。
ACFは、ベースラインのアンタングル化アルゴリズムを一貫して上回っている。
- 参考スコア(独自算出の注目度): 10.819503014571671
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Algorithms that exploit factored Markov decision processes are far more sample-efficient than factor-agnostic methods, yet they assume a factored representation is known a priori -- a requirement that breaks down when the agent sees only high-dimensional observations. Conversely, deep reinforcement learning handles such inputs but cannot benefit from factored structure. We address this representation problem with Action-Controllable Factorization (ACF), a contrastive learning approach that uncovers independently controllable latent variables -- state components each action can influence separately. ACF leverages sparsity: actions typically affect only a subset of variables, while the rest evolve under the environment's dynamics, yielding informative data for contrastive training. ACF recovers the ground truth controllable factors directly from pixel observations on three benchmarks with known factored structure -- Taxi, FourRooms, and MiniGrid-DoorKey -- consistently outperforming baseline disentanglement algorithms.
- Abstract(参考訳): マルコフ決定過程を利用したアルゴリズムは、因子に依存しない方法よりもはるかにサンプリング効率が高いが、因子の表現は、エージェントが高次元の観察のみを見るときの要求である事前条件として知られていると仮定する。
逆に、深層強化学習はそのような入力を扱うが、因子構造から恩恵を受けることはできない。
我々は、この表現問題に対処する:ACFは、独立に制御可能な潜在変数を明らかにするコントラスト学習アプローチであるACF(Action-Controllable Factorization) - 状態コンポーネント -- 状態コンポーネント – は、それぞれ独立して影響を受け得る。ACFは、分散性を利用する: アクションは、変数のサブセットにのみ影響するが、残りの部分は、環境のダイナミクスの下で進化する。ACFは、既知の因子構造を持つ3つのベンチマーク(Taxi、FourRooms、MiniGrid-DoorKey)の画素観察から直接、基底真理制御可能な因子を回復する。
関連論文リスト
- Efficient Solution and Learning of Robust Factored MDPs [57.2416302384766]
未知の環境との相互作用からr-MDPを学習することで、性能保証による堅牢なポリシーの合成が可能になる。
本稿では,因子状態表現に基づくr-MDPの解法と学習法を提案する。
論文 参考訳(メタデータ) (2025-08-01T15:23:15Z) - Variable Importance in High-Dimensional Settings Requires Grouping [19.095605415846187]
Conditional Permutation Importance (CPI)は、そのような場合のPIの制限をバイパスする。
クラスタリングまたはいくつかの事前知識を介して統計的に変数をグループ化すると、ある程度のパワーバックが得られる。
重み付けにより拡張された手法は,高相関なグループであっても,型Iエラーを制御可能であることを示す。
論文 参考訳(メタデータ) (2023-12-18T00:21:47Z) - Sample-Efficient Reinforcement Learning in the Presence of Exogenous
Information [77.19830787312743]
実世界の強化学習アプリケーションでは、学習者の観察空間は、その課題に関する関連情報と無関係情報の両方でユビキタスに高次元である。
本稿では,強化学習のための新しい問題設定法であるExogenous Decision Process (ExoMDP)を導入する。
内因性成分の大きさのサンプル複雑度で準最適ポリシーを学習するアルゴリズムであるExoRLを提案する。
論文 参考訳(メタデータ) (2022-06-09T05:19:32Z) - Learning Disentangled Representations for Counterfactual Regression via
Mutual Information Minimization [25.864029391642422]
相互情報最小化(MIM-DRCFR)による非現実的回帰表現を提案する。
マルチタスク学習フレームワークを用いて、潜伏要因の学習時に情報を共有し、MI最小化学習基準を取り入れ、これらの要因の独立性を確保する。
パブリックベンチマークや実世界の産業ユーザ成長データセットを含む実験は、我々の手法が最先端の手法よりもはるかに優れていることを示した。
論文 参考訳(メタデータ) (2022-06-02T12:49:41Z) - Confounder Identification-free Causal Visual Feature Learning [84.28462256571822]
本稿では,創始者を特定する必要性を排除した,創始者同定自由因果視覚特徴学習(CICF)手法を提案する。
CICFは、フロントドア基準に基づいて異なるサンプル間の介入をモデル化し、インスタンスレベルの介入に対するグローバルスコープ干渉効果を近似する。
我々は,CICFと一般的なメタラーニング戦略MAMLの関係を明らかにするとともに,MAMLが理論的観点から機能する理由を解釈する。
論文 参考訳(メタデータ) (2021-11-26T10:57:47Z) - Visual Representation Learning Does Not Generalize Strongly Within the
Same Domain [41.66817277929783]
我々は、17の教師なし、弱弱教師付き、完全教師付き表現学習アプローチが、単純なデータセットの変動の生成要因を正しく推測するかどうかを検証した。
2000以上のモデルをトレーニングし、テストし、それらすべてが、監視信号やアーキテクチャバイアスに関係なく、基盤となるメカニズムを学ぶのに苦労していることを観察します。
論文 参考訳(メタデータ) (2021-07-17T11:24:18Z) - CausalX: Causal Explanations and Block Multilinear Factor Analysis [3.087360758008569]
全体と部分の統一多線形モデルを提案する。
ボトムアップ計算の代替品であるインクリメンタルmモードブロックsvdを導入する。
結果のオブジェクト表現は、オブジェクトの全体と部分の階層に関連する固有の因果係数表現の解釈可能な選択である。
論文 参考訳(メタデータ) (2021-02-25T13:49:01Z) - Disentangling Observed Causal Effects from Latent Confounders using
Method of Moments [67.27068846108047]
我々は、軽度の仮定の下で、識別性と学習可能性に関する保証を提供する。
我々は,線形制約付き結合テンソル分解に基づく効率的なアルゴリズムを開発し,スケーラブルで保証可能な解を得る。
論文 参考訳(メタデータ) (2021-01-17T07:48:45Z) - Learning Causal Semantic Representation for Out-of-Distribution
Prediction [125.38836464226092]
因果推論に基づく因果意味生成モデル(CSG)を提案し,その2つの要因を別々にモデル化する。
CSGはトレーニングデータに適合させることで意味的因子を識別できることを示し、この意味的識別はOOD一般化誤差の有界性を保証する。
論文 参考訳(メタデータ) (2020-11-03T13:16:05Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。