Fugu-MT 論文翻訳(概要): Fine-Grained Causal Dynamics Learning with Quantization for Improving Robustness in Reinforcement Learning

論文の概要: Fine-Grained Causal Dynamics Learning with Quantization for Improving Robustness in Reinforcement Learning

arxiv url: http://arxiv.org/abs/2406.03234v1
Date: Wed, 5 Jun 2024 13:13:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-06 18:20:44.066843
Title: Fine-Grained Causal Dynamics Learning with Quantization for Improving Robustness in Reinforcement Learning
Title（参考訳）: 強化学習におけるロバスト性向上のための量子化による微粒因果ダイナミクス学習
Authors: Inwoo Hwang, Yunhyeok Kwak, Suhyung Choi, Byoung-Tak Zhang, Sanghack Lee,
Abstract要約: 因果ダイナミクス学習は、強化学習における堅牢性を高めるための有望なアプローチである。本稿では,微粒な因果構造を推定し,それらを予測に利用する新しいモデルを提案する。
参考スコア（独自算出の注目度）: 26.34622544479565
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Causal dynamics learning has recently emerged as a promising approach to enhancing robustness in reinforcement learning (RL). Typically, the goal is to build a dynamics model that makes predictions based on the causal relationships among the entities. Despite the fact that causal connections often manifest only under certain contexts, existing approaches overlook such fine-grained relationships and lack a detailed understanding of the dynamics. In this work, we propose a novel dynamics model that infers fine-grained causal structures and employs them for prediction, leading to improved robustness in RL. The key idea is to jointly learn the dynamics model with a discrete latent variable that quantizes the state-action space into subgroups. This leads to recognizing meaningful context that displays sparse dependencies, where causal structures are learned for each subgroup throughout the training. Experimental results demonstrate the robustness of our method to unseen states and locally spurious correlations in downstream tasks where fine-grained causal reasoning is crucial. We further illustrate the effectiveness of our subgroup-based approach with quantization in discovering fine-grained causal relationships compared to prior methods.
Abstract（参考訳）: 近年,強化学習(RL)における強靭性向上に期待できるアプローチとして,因果ダイナミクス学習が登場している。通常、ゴールは、エンティティ間の因果関係に基づいて予測を行う動的モデルを構築することである。因果関係は特定の文脈下でのみ現れることが多いという事実にもかかわらず、既存のアプローチはそのようなきめ細かい関係を見落とし、ダイナミクスの詳細な理解を欠いている。本研究では, 微粒な因果構造を推算し, 予測に用いる新しい力学モデルを提案する。鍵となる考え方は、状態-作用空間を部分群に量子化する離散潜在変数でダイナミクスモデルを共同で学習することである。これにより、トレーニングを通して各サブグループについて因果構造が学習されるスパース依存関係を表示する意味のあるコンテキストが認識される。実験結果から, 微粒な因果推論が重要となる下流タスクにおいて, 本手法の未確認状態に対するロバスト性, 局所的な急激な相関性を示す。さらに,従来の手法と比較して微粒な因果関係の発見における量子化による部分群ベースアプローチの有効性について述べる。

関連論文リスト

Causal Reasoning in Pieces: Modular In-Context Learning for Causal Discovery [6.72184534513047]
因果推論は依然として大きな言語モデルにとって根本的な課題である。大規模言語モデルによる内部推論の最近の進歩は、関心を喚起している。我々はOpenAIのo-seriesとDeepSeek-Rモデルファミリを用いたCorr2Causeベンチマークの因果発見について検討した。
論文参考訳（メタデータ） (2025-07-31T12:10:27Z)
Learning Nonlinear Causal Reductions to Explain Reinforcement Learning Policies [50.30741668990102]
我々は、強化学習政策の行動を説明するための因果的視点を採っている。我々はこれらの関係を説明する単純化された高レベルの因果関係モデルを学ぶ。非線形因果モデルのクラスに対して、一意の解が存在することを証明する。
論文参考訳（メタデータ） (2025-07-20T10:25:24Z)
Reframing attention as a reinforcement learning problem for causal discovery [3.2498796510544636]
本稿では因果構造に関する動的仮説を表現するための新しい理論として因果プロセスフレームワークを紹介する。これにより、RL設定内でトランスフォーマーネットワークが普及するアテンション機構を再構築することができる。
論文参考訳（メタデータ） (2025-07-18T13:50:57Z)
Towards Empowerment Gain through Causal Structure Learning in Model-Based RL [35.933469787075]
本稿では,学習効率と制御性を向上させるための新しいフレームワークであるEmpowerment through Causal Learning (ECL)を提案する。 ECLは、まず、収集されたデータに基づいて環境の因果ダイナミクスモデルを訓練する。そして、探索によって収集されたデータを同時に利用して、因果ダイナミクスモデルをより制御しやすいように更新する。
論文参考訳（メタデータ） (2025-02-14T10:59:09Z)
Dynamic Causal Structure Discovery and Causal Effect Estimation [5.943525863330208]
因果関係の時間変化を許容する動的因果関係グラフをモデル化する新しい枠組みを開発する。因果グラフ上で過去の推定値と将来の予測値の両方を提供するアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-01-11T12:52:39Z)
Unified Causality Analysis Based on the Degrees of Freedom [1.2289361708127877]
本稿では,システム間の因果関係を同定する統一手法を提案する。システムの自由度を分析することで、私たちのアプローチは因果的影響と隠れた共同設立者の両方についてより包括的な理解を提供する。この統合されたフレームワークは、理論モデルとシミュレーションを通じて検証され、その堅牢性とより広範な応用の可能性を示す。
論文参考訳（メタデータ） (2024-10-25T10:57:35Z)
Reinforcement Learning under Latent Dynamics: Toward Statistical and Algorithmic Modularity [51.40558987254471]
強化学習の現実的な応用は、エージェントが複雑な高次元の観察を行う環境を含むことが多い。本稿では,統計的・アルゴリズム的な観点から,textit General$ latent dynamicsの下での強化学習の課題に対処する。
論文参考訳（メタデータ） (2024-10-23T14:22:49Z)
Dynamic Post-Hoc Neural Ensemblers [55.15643209328513]
本研究では,ニューラルネットワークをアンサンブル手法として活用することを検討する。低多様性のアンサンブルを学習するリスクを動機として,ベースモデル予測をランダムにドロップすることでモデルの正規化を提案する。このアプローチはアンサンブル内の多様性を低くし、オーバーフィッティングを減らし、一般化能力を向上させる。
論文参考訳（メタデータ） (2024-10-06T15:25:39Z)
Revisiting Spurious Correlation in Domain Generalization [12.745076668687748]
データ生成プロセスにおける因果関係を記述するために,構造因果モデル(SCM)を構築した。さらに、スプリアス相関に基づくメカニズムを徹底的に分析する。そこで本研究では,OOD一般化における共起バイアスの制御について,相対性スコア重み付き推定器を導入して提案する。
論文参考訳（メタデータ） (2024-06-17T13:22:00Z)
Distributional Associations vs In-Context Reasoning: A Study of Feed-forward and Attention Layers [49.80959223722325]
本研究では,大規模言語モデルにおけるフィードフォワード層とアテンション層との区別について検討する。フィードフォワード層はビッグラムのような単純な分布関係を学習する傾向があり、注意層は文脈内推論にフォーカスする。
論文参考訳（メタデータ） (2024-06-05T08:51:08Z)
Learning by Doing: An Online Causal Reinforcement Learning Framework with Causal-Aware Policy [40.33036146207819]
我々は、図形因果モデルを用いて、状態の生成過程を明示的にモデル化することを検討する。我々は、環境のアクティブな介入学習とRL相互作用プロセスに更新する因果構造を定式化する。
論文参考訳（メタデータ） (2024-02-07T14:09:34Z)
Towards Causal Foundation Model: on Duality between Causal Inference and Attention [18.046388712804042]
治療効果推定のための因果認識基盤モデルの構築に向けて第一歩を踏み出す。我々はCInA(Causal Inference with Attention)と呼ばれる新しい理論的に正当化された手法を提案する。
論文参考訳（メタデータ） (2023-10-01T22:28:34Z)
Interpretable Imitation Learning with Dynamic Causal Relations [65.18456572421702]
得られた知識を有向非巡回因果グラフの形で公開することを提案する。また、この因果発見プロセスを状態依存的に設計し、潜在因果グラフのダイナミクスをモデル化する。提案するフレームワークは,動的因果探索モジュール,因果符号化モジュール,予測モジュールの3つの部分から構成され,エンドツーエンドで訓練される。
論文参考訳（メタデータ） (2023-09-30T20:59:42Z)
Causal Dynamics Learning for Task-Independent State Abstraction [61.707048209272884]
タスク独立状態抽象化(CDL)のための因果ダイナミクス学習を導入する。 CDLは、状態変数とアクションの間の不要な依存関係を取り除く理論的に証明された因果ダイナミクスモデルを学ぶ。状態抽象化は、学習されたダイナミクスから導き出すことができる。
論文参考訳（メタデータ） (2022-06-27T17:02:53Z)
Learning Neural Causal Models with Active Interventions [83.44636110899742]
本稿では,データ生成プロセスの根底にある因果構造を素早く識別する能動的介入ターゲット機構を提案する。本手法は,ランダムな介入ターゲティングと比較して,要求される対話回数を大幅に削減する。シミュレーションデータから実世界のデータまで,複数のベンチマークにおいて優れた性能を示す。
論文参考訳（メタデータ） (2021-09-06T13:10:37Z)
Developing Constrained Neural Units Over Time [81.19349325749037]
本稿では,既存のアプローチと異なるニューラルネットワークの定義方法に焦点をあてる。ニューラルネットワークの構造は、データとの相互作用にも拡張される制約の特別なクラスによって定義される。提案した理論は時間領域にキャストされ, データを順序づけられた方法でネットワークに提示する。
論文参考訳（メタデータ） (2020-09-01T09:07:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。