論文の概要: Causal Influence Detection for Improving Efficiency in Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2106.03443v1
- Date: Mon, 7 Jun 2021 09:21:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 17:49:12.946164
- Title: Causal Influence Detection for Improving Efficiency in Reinforcement
Learning
- Title(参考訳): 強化学習における効率向上のための因果影響検出
- Authors: Maximilian Seitzer and Bernhard Sch\"olkopf and Georg Martius
- Abstract要約: 条件付き相互情報に基づく状況依存因果関係の尺度を導入する。
影響の状態を確実に検出できることが示される。
修正アルゴリズムはすべて、ロボット操作タスクにおけるデータ効率の大幅な向上を示している。
- 参考スコア(独自算出の注目度): 11.371889042789219
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many reinforcement learning (RL) environments consist of independent entities
that interact sparsely. In such environments, RL agents have only limited
influence over other entities in any particular situation. Our idea in this
work is that learning can be efficiently guided by knowing when and what the
agent can influence with its actions. To achieve this, we introduce a measure
of situation-dependent causal influence based on conditional mutual information
and show that it can reliably detect states of influence. We then propose
several ways to integrate this measure into RL algorithms to improve
exploration and off-policy learning. All modified algorithms show strong
increases in data efficiency on robotic manipulation tasks.
- Abstract(参考訳): 多くの強化学習(RL)環境は、わずかに相互作用する独立した実体で構成されている。
そのような環境では、rlエージェントは特定の状況において他のエンティティに対する影響を限定するだけである。
本研究の考え方は,エージェントが行動にいつ,どのような影響を与えることができるかを知ることで,学習を効率的に指導できる,というものです。
これを実現するために,条件付き相互情報に基づく状況依存因果影響尺度を導入し,影響状態を確実に検出できることを示す。
次に,この尺度をrlアルゴリズムに統合し,探索とオフポリシー学習を改善する方法について提案する。
修正アルゴリズムはすべて、ロボット操作タスクにおけるデータ効率の大幅な向上を示している。
関連論文リスト
- Causal Coordinated Concurrent Reinforcement Learning [8.654978787096807]
本稿では,データ共有と協調探索のための新しいアルゴリズムフレームワークを提案する。
本アルゴリズムは,独立規制による個人差分制御モデルパラメータの抽出において,付加雑音モデル-混合モデル(ANM-MM)という形で因果推論アルゴリズムを利用する。
抽出したモデルパラメータの類似度に基づく新しいデータ共有方式を提案し, 自己回帰, 振り子, カートポールのスイングアップタスクのセットにおいて, 優れた学習速度を示す。
論文 参考訳(メタデータ) (2024-01-31T17:20:28Z) - Reinforcement Learning from Passive Data via Latent Intentions [86.4969514480008]
我々は、下流RLを加速する機能を学ぶために、受動的データが引き続き使用できることを示す。
我々のアプローチは、意図をモデル化することで受動的データから学習する。
実験では、クロス・エボディメント・ビデオデータやYouTubeビデオなど、さまざまな形式の受動的データから学習できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:59:05Z) - Inapplicable Actions Learning for Knowledge Transfer in Reinforcement
Learning [3.194414753332705]
学習不能な動作はRLアルゴリズムのサンプル効率を大幅に向上させることを示す。
得られた知識の伝達性のおかげで、学習プロセスをより効率的にするために、他のタスクやドメインで再利用することができる。
論文 参考訳(メタデータ) (2022-11-28T17:45:39Z) - Flexible Attention-Based Multi-Policy Fusion for Efficient Deep
Reinforcement Learning [78.31888150539258]
強化学習(RL)エージェントは、長い間、人間の学習の効率にアプローチしようとしてきた。
RLにおける以前の研究は、エージェントがサンプル効率を改善するために外部知識ポリシーを取り入れていた。
我々は,複数の知識ポリシーを融合させたRLパラダイムであるKGRL(Knowledge-Grounded RL)について述べる。
論文 参考訳(メタデータ) (2022-10-07T17:56:57Z) - Exploring Example Influence in Continual Learning [26.85320841575249]
連続学習(CL)は、より良い安定性(S)と塑性(P)を達成することを目的として、人間のような新しいタスクを順次学習する
S と P の影響をトレーニング例で調べるには,SP の改善に向けた学習パターンの改善が期待できる。
本稿では、IFの摂動における2つの重要なステップをシミュレートし、S-およびP-認識の例の影響を得るための、シンプルで効果的なMetaSPアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-25T15:17:37Z) - Denoised MDPs: Learning World Models Better Than the World Itself [94.74665254213588]
本研究は,野生の情報を制御可能性と報酬との関係に基づく4つのタイプに分類し,制御性および報酬関連性の両方に有用な情報を定式化する。
DeepMind Control Suite と RoboDesk の変種に関する実験では、生の観測のみを用いた場合よりも、認知された世界モデルの優れた性能が示されている。
論文 参考訳(メタデータ) (2022-06-30T17:59:49Z) - Improving Robustness of Learning-based Autonomous Steering Using
Adversarial Images [58.287120077778205]
自動運転用画像入力における学習アルゴリズムw.r.tの堅牢性を解析するためのフレームワークについて紹介する。
感度分析の結果を用いて, 「操縦への学習」 タスクの総合的性能を向上させるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-26T02:08:07Z) - Disturbing Reinforcement Learning Agents with Corrupted Rewards [62.997667081978825]
強化学習アルゴリズムに対する報酬の摂動に基づく異なる攻撃戦略の効果を分析します。
敵対的な報酬をスムーズに作成することは学習者を誤解させることができ、低探査確率値を使用すると、学習した政策は報酬を腐敗させるのがより堅牢であることを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:53:48Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。