Fugu-MT 論文翻訳(概要): Causal Deep Reinforcement Learning Using Observational Data

論文の概要: Causal Deep Reinforcement Learning Using Observational Data

arxiv url: http://arxiv.org/abs/2211.15355v2
Date: Fri, 9 Jun 2023 17:03:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-12 18:06:42.959019
Title: Causal Deep Reinforcement Learning Using Observational Data
Title（参考訳）: 観測データを用いた因果深い強化学習
Authors: Wenxuan Zhu, Chao Yu, Qiang Zhang
Abstract要約: 深部強化学習(DRL)における2つの解答法を提案する。提案手法はまず, 因果推論法に基づいて異なる試料の重要度を算出し, 損失関数に対する異なる試料の影響を調整する。本手法の有効性を実証し,実験的に検証する。
参考スコア（独自算出の注目度）: 11.790171301328158
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep reinforcement learning (DRL) requires the collection of interventional data, which is sometimes expensive and even unethical in the real world, such as in the autonomous driving and the medical field. Offline reinforcement learning promises to alleviate this issue by exploiting the vast amount of observational data available in the real world. However, observational data may mislead the learning agent to undesirable outcomes if the behavior policy that generates the data depends on unobserved random variables (i.e., confounders). In this paper, we propose two deconfounding methods in DRL to address this problem. The methods first calculate the importance degree of different samples based on the causal inference technique, and then adjust the impact of different samples on the loss function by reweighting or resampling the offline dataset to ensure its unbiasedness. These deconfounding methods can be flexibly combined with existing model-free DRL algorithms such as soft actor-critic and deep Q-learning, provided that a weak condition can be satisfied by the loss functions of these algorithms. We prove the effectiveness of our deconfounding methods and validate them experimentally.
Abstract（参考訳）: 深層強化学習(DRL)は介入データの収集を必要とするが、これは時として、自動運転車や医療分野のような現実世界では高価で非倫理的である。オフライン強化学習は、現実世界で利用可能な膨大な観測データを活用することでこの問題を軽減することを約束している。しかし、観測データは、データを生成する行動ポリシーが観測されていない確率変数(つまり共同設立者)に依存する場合、学習エージェントを望ましくない結果へと誤解させる可能性がある。本稿では,この問題に対処するため,DRLにおける2つの分離手法を提案する。提案手法はまず,因果推論手法に基づいて異なるサンプルの重要度を算出し,その不偏性を確保するためにオフラインデータセットを再重み付けあるいは再サンプリングすることにより,損失関数に対する異なるサンプルの影響を調整する。これらの解離法は、これらのアルゴリズムの損失関数によって弱条件を満たすことができることを条件として、ソフトアクター批判や深部Q-ラーニングのような既存のモデルフリーDRLアルゴリズムと柔軟に組み合わせることができる。本手法の有効性を実証し,実験的に検証する。

関連論文リスト

Value from Observations: Towards Large-Scale Imitation Learning via Self-Improvement [19.883973457999282]
Imitation Learning from Observation (IfO)は、大規模に振る舞いを学ぶ強力な方法を提供する。本稿では,主にバイモーダル品質のデータ分布を用いた理想的なシナリオについて検討し,そのようなデータから学習する方法を提案する。提案手法は,専門家データと非専門家データ間の情報伝達に値関数を用いて,アクションフリーな実演にRLに基づく模倣学習を適用した。
論文参考訳（メタデータ） (2025-07-09T09:55:23Z)
Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration [74.09687562334682]
Debias and Denoise Attribution (DDA) と呼ばれる新しいトレーニングデータ属性法を導入する。提案手法は既存のアプローチよりも優れており,平均91.64%のAUCを実現している。 DDAは、様々なソースとLLaMA2、QWEN2、Mistralのような異なるスケールのモデルに対して、強力な汎用性とスケーラビリティを示す。
論文参考訳（メタデータ） (2024-10-02T07:14:26Z)
Tackling Data Corruption in Offline Reinforcement Learning via Sequence Modeling [35.2859997591196]
オフラインの強化学習は、データ駆動意思決定のスケーリングを約束する。しかし、センサーや人間から収集された現実世界のデータには、しばしばノイズやエラーが含まれている。我々の研究によると、データセットが制限された場合、先行研究はデータの破損の下では不十分である。
論文参考訳（メタデータ） (2024-07-05T06:34:32Z)
On the Influence of Data Resampling for Deep Learning-Based Log Anomaly Detection: Insights and Recommendations [10.931620604044486]
本研究は,多様なデータ再サンプリング手法が既存のADアプローチに与える影響を詳細に分析する。クラス不均衡のレベルが異なる4つのデータセットにまたがるこれらのADアプローチの性能を評価する。正常なデータと異常なデータの最適な再サンプリング率を利用する際のデータ再サンプリング手法の有効性を評価する。
論文参考訳（メタデータ） (2024-05-06T14:01:05Z)
Simple Ingredients for Offline Reinforcement Learning [86.1988266277766]
オフライン強化学習アルゴリズムは、ターゲット下流タスクに高度に接続されたデータセットに有効であることが証明された。既存の手法が多様なデータと競合することを示す。その性能は、関連するデータ収集によって著しく悪化するが、オフラインバッファに異なるタスクを追加するだけでよい。アルゴリズム的な考慮以上のスケールが、パフォーマンスに影響を及ぼす重要な要因であることを示す。
論文参考訳（メタデータ） (2024-03-19T18:57:53Z)
Efficient Deep Reinforcement Learning Requires Regulating Overfitting [91.88004732618381]
本稿では,高時間差(TD)誤差が深部RLアルゴリズムの性能に悪影響を及ぼす主要な原因であることを示す。検証TDエラーをターゲットとした簡単なオンラインモデル選択法は,状態ベースDMCおよびGymタスク間で有効であることを示す。
論文参考訳（メタデータ） (2023-04-20T17:11:05Z)
A Data-Centric Approach for Improving Adversarial Training Through the Lens of Out-of-Distribution Detection [0.4893345190925178]
複雑なアルゴリズムを適用して効果を緩和するのではなく, トレーニング手順から直接ハードサンプルを検出し, 除去することを提案する。 SVHN と CIFAR-10 データセットを用いた結果,計算コストの増大を伴わずに対角訓練の改善に本手法の有効性が示された。
論文参考訳（メタデータ） (2023-01-25T08:13:50Z)
DEALIO: Data-Efficient Adversarial Learning for Imitation from Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。よりデータ効率の高いifOアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-31T23:46:32Z)
Sample-Efficient Reinforcement Learning via Counterfactual-Based Data Augmentation [15.451690870640295]
医療などのいくつかのシナリオでは、通常、各患者に利用可能なレコードはごくわずかであり、現在の強化学習アルゴリズムの適用を妨げる。構造因果モデル(SCM)を利用して状態ダイナミクスをモデル化する,データ効率の高いRLアルゴリズムを提案する。本研究は, 軽度条件下では反実結果が識別可能であり, 反実に基づく拡張データセット上のq学習が最適値関数に収束することを示す。
論文参考訳（メタデータ） (2020-12-16T17:21:13Z)
Provably Efficient Causal Reinforcement Learning with Confounded Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-22T14:49:33Z)
How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文参考訳（メタデータ） (2020-05-25T12:13:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。