Fugu-MT 論文翻訳(概要): Tackling Non-Stationarity in Reinforcement Learning via Causal-Origin Representation

論文の概要: Tackling Non-Stationarity in Reinforcement Learning via Causal-Origin Representation

arxiv url: http://arxiv.org/abs/2306.02747v1
Date: Mon, 5 Jun 2023 10:05:43 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-06 15:51:50.459835
Title: Tackling Non-Stationarity in Reinforcement Learning via Causal-Origin Representation
Title（参考訳）: Causal-Origin表現による強化学習における非定常処理
Authors: Wanpeng Zhang, Yilin Li, Boyu Yang, Zongqing Lu
Abstract要約: 実世界のシナリオでは、強化学習の応用は複雑な非定常性によって著しく困難である。我々は、非定常性は複雑な因果関係を通じて伝播し蓄積できるという新しい視点を提案する。本稿では,この課題に対処するため,Causal-Origin RePresentation (COREP)アルゴリズムを提案する。
参考スコア（独自算出の注目度）: 20.457417693203354
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In real-world scenarios, the application of reinforcement learning is significantly challenged by complex non-stationarity. Most existing methods attempt to model the changes of the environment explicitly, often requiring impractical prior knowledge. In this paper, we propose a new perspective, positing that non-stationarity can propagate and accumulate through complex causal relationships during state transitions, thereby compounding its sophistication and affecting policy learning. We believe that this challenge can be more effectively addressed by tracing the causal origin of non-stationarity. To this end, we introduce the Causal-Origin REPresentation (COREP) algorithm. COREP primarily employs a guided updating mechanism to learn a stable graph representation for states termed as causal-origin representation. By leveraging this representation, the learned policy exhibits impressive resilience to non-stationarity. We supplement our approach with a theoretical analysis grounded in the causal interpretation for non-stationary reinforcement learning, advocating for the validity of the causal-origin representation. Experimental results further demonstrate the superior performance of COREP over existing methods in tackling non-stationarity.
Abstract（参考訳）: 現実のシナリオでは、強化学習の応用は複雑な非定常性によって著しく挑戦される。既存の手法の多くは環境の変化を明示的にモデル化し、しばしば非実用的な事前知識を必要とする。本稿では,非定常性は状態遷移中の複雑な因果関係を通じて伝播・蓄積し,その高度化と政策学習に影響を与える新しい視点を提案する。非定常性の因果関係をトレースすることで、この課題をより効果的に解決できると考えている。そこで我々はCausal-Origin RePresentation (COREP)アルゴリズムを提案する。 COREPは主に、因果オリジン表現と呼ばれる状態の安定グラフ表現を学ぶためのガイド付き更新機構を使用している。この表現を利用することで、学習されたポリシーは非定常性に対する印象的なレジリエンスを示す。本研究は,非定常強化学習の因果的解釈に基づく理論的解析で補足し,因果-オリジン表現の妥当性を提唱する。実験により,非定常性に対処する既存手法よりもCOREPの方が優れた性能を示した。

関連論文リスト

Consistency Is Not Always Correct: Towards Understanding the Role of Exploration in Post-Training Reasoning [75.79451512757844]
基礎モデルは幅広い知識を示すが、タスク固有の推論は限定的である。 RLVRと推論スケーリングは、RLVRや推論スケーリングのようなトレーニング後の戦略を動機付けます。 RLVRはスキューズ効果を誘発し,推論エントロピーを減少させ,正しい経路を忘れることを示した。
論文参考訳（メタデータ） (2025-11-10T18:25:26Z)
Zero-Shot Policy Transfer in Reinforcement Learning using Buckingham's Pi Theorem [42.37643072381109]
強化学習ポリシーは、しばしば、新しいロボット、タスク、または異なる物理的パラメータを持つ環境への一般化に失敗する。本稿では,バッキンガムのPi理論に基づくシンプルなゼロショット転送手法を提案する。
論文参考訳（メタデータ） (2025-10-09T19:36:18Z)
Step-Aware Policy Optimization for Reasoning in Diffusion Large Language Models [57.42778606399764]
拡散言語モデル(dLLM)は、テキスト生成に有望で非自己回帰的なパラダイムを提供する。現在の強化学習アプローチは、しばしばスパースで結果に基づく報酬に頼っている。これは推論の自然な構造との根本的なミスマッチに由来すると我々は主張する。
論文参考訳（メタデータ） (2025-10-02T00:34:15Z)
Reframing attention as a reinforcement learning problem for causal discovery [3.2498796510544636]
本稿では因果構造に関する動的仮説を表現するための新しい理論として因果プロセスフレームワークを紹介する。これにより、RL設定内でトランスフォーマーネットワークが普及するアテンション機構を再構築することができる。
論文参考訳（メタデータ） (2025-07-18T13:50:57Z)
CTRLS: Chain-of-Thought Reasoning via Latent State-Transition [57.51370433303236]
チェーン・オブ・シント(CoT)推論は、大規模な言語モデルで複雑な問題を解釈可能な中間ステップに分解することを可能にする。我々は,遅延状態遷移を伴うマルコフ決定プロセス(MDP)としてCoT推論を定式化するフレームワークであるgroundingSを紹介する。我々は、ベンチマーク推論タスクにおける推論精度、多様性、探索効率の改善を示す。
論文参考訳（メタデータ） (2025-07-10T21:32:18Z)
Causal Temporal Representation Learning with Nonstationary Sparse Transition [22.6420431022419]
Causal Temporal Representation Learning (Ctrl) 法は、複雑な非定常時間列の時間的因果ダイナミクスを特定することを目的としている。この研究は、人間の直感的な理解と整合したスパース遷移の仮定を採用し、理論的な観点から識別可能性の結果を提示している。本稿では,非定常スパース遷移を用いた因果時間表現学習(CtrlNS)を提案する。
論文参考訳（メタデータ） (2024-09-05T00:38:27Z)
Sequential Representation Learning via Static-Dynamic Conditional Disentanglement [58.19137637859017]
本稿では,ビデオ中の時間非依存要因と時間変化要因を分離することに着目し,逐次的データ内での自己教師付き不整合表現学習について検討する。本稿では,静的/動的変数間の因果関係を明示的に考慮し,それらの因子間の通常の独立性仮定を破る新しいモデルを提案する。実験により、提案手法は、シーンのダイナミックスが内容に影響されるシナリオにおいて、従来の複雑な最先端技術よりも優れていることが示された。
論文参考訳（メタデータ） (2024-08-10T17:04:39Z)
CaRiNG: Learning Temporal Causal Representation under Non-Invertible Generation Process [22.720927418184672]
非可逆生成時間データのCAusal RepresentatIonを同一性保証付きで学習するための原則的アプローチを提案する。具体的には、時間的文脈を利用して失われた潜伏情報を復元し、この理論の条件を適用してトレーニングプロセスの指導を行う。
論文参考訳（メタデータ） (2024-01-25T22:01:07Z)
Sim-to-Real Causal Transfer: A Metric Learning Approach to Causally-Aware Interaction Representations [58.96953392466609]
エージェント相互作用の現代的表現の因果認識を詳細に検討する。近年の表現は、非因果剤の摂動に対して部分的に耐性があることが示されている。本稿では,因果アノテーションを用いて潜在表現を規則化するメトリクス学習手法を提案する。
論文参考訳（メタデータ） (2023-12-07T18:57:03Z)
Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文参考訳（メタデータ） (2023-06-09T08:30:51Z)
Reinforcement Learning in System Identification [0.0]
システム識別は、学習前方モデル、伝達関数、システムダイナミクスなどとも呼ばれるが、科学と工学の両方において長い伝統がある。ここでは、この問題における強化学習の利用について考察する。本稿では,この問題が強化学習問題として自然と音にどのように適合するかを詳述し,RLがこのような問題を解決する上で有望な手法であることを実証する実験結果を示す。
論文参考訳（メタデータ） (2022-12-14T09:20:42Z)
Principled Knowledge Extrapolation with GANs [92.62635018136476]
我々は,知識外挿の新たな視点から,対実合成を研究する。本稿では, 知識外挿問題に対処するために, クローズド形式判別器を用いた対角ゲームが利用可能であることを示す。提案手法は,多くのシナリオにおいて,エレガントな理論的保証と優れた性能の両方を享受する。
論文参考訳（メタデータ） (2022-05-21T08:39:42Z)
Towards Robust Bisimulation Metric Learning [3.42658286826597]
ビシミュレーションメトリクスは、表現学習問題に対する一つの解決策を提供する。非最適ポリシーへのオン・ポリティクス・バイシミュレーション・メトリクスの値関数近似境界を一般化する。これらの問題は、制約の少ない力学モデルと、報酬信号への埋め込みノルムの不安定な依存に起因する。
論文参考訳（メタデータ） (2021-10-27T00:32:07Z)
Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文参考訳（メタデータ） (2021-09-28T10:11:07Z)
Supercharging Imbalanced Data Learning With Energy-based Contrastive Representation Transfer [72.5190560787569]
コンピュータビジョンにおいて、長い尾のデータセットからの学習は、特に自然画像データセットの繰り返しのテーマである。本稿では,データ生成機構がラベル条件と特徴分布の間で不変であるメタ分散シナリオを提案する。これにより、因果データインフレーションの手順を利用してマイノリティクラスの表現を拡大できる。
論文参考訳（メタデータ） (2020-11-25T00:13:11Z)
Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文参考訳（メタデータ） (2020-06-18T17:34:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。