Fugu-MT 論文翻訳(概要): Causal Influence Detection for Improving Efficiency in Reinforcement Learning

論文の概要: Causal Influence Detection for Improving Efficiency in Reinforcement Learning

arxiv url: http://arxiv.org/abs/2106.03443v1
Date: Mon, 7 Jun 2021 09:21:56 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-08 17:49:12.946164
Title: Causal Influence Detection for Improving Efficiency in Reinforcement Learning
Title（参考訳）: 強化学習における効率向上のための因果影響検出
Authors: Maximilian Seitzer and Bernhard Sch\"olkopf and Georg Martius
Abstract要約: 条件付き相互情報に基づく状況依存因果関係の尺度を導入する。影響の状態を確実に検出できることが示される。修正アルゴリズムはすべて、ロボット操作タスクにおけるデータ効率の大幅な向上を示している。
参考スコア（独自算出の注目度）: 11.371889042789219
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Many reinforcement learning (RL) environments consist of independent entities that interact sparsely. In such environments, RL agents have only limited influence over other entities in any particular situation. Our idea in this work is that learning can be efficiently guided by knowing when and what the agent can influence with its actions. To achieve this, we introduce a measure of situation-dependent causal influence based on conditional mutual information and show that it can reliably detect states of influence. We then propose several ways to integrate this measure into RL algorithms to improve exploration and off-policy learning. All modified algorithms show strong increases in data efficiency on robotic manipulation tasks.
Abstract（参考訳）: 多くの強化学習(RL)環境は、わずかに相互作用する独立した実体で構成されている。そのような環境では、rlエージェントは特定の状況において他のエンティティに対する影響を限定するだけである。本研究の考え方は,エージェントが行動にいつ,どのような影響を与えることができるかを知ることで,学習を効率的に指導できる,というものです。これを実現するために,条件付き相互情報に基づく状況依存因果影響尺度を導入し,影響状態を確実に検出できることを示す。次に,この尺度をrlアルゴリズムに統合し,探索とオフポリシー学習を改善する方法について提案する。修正アルゴリズムはすべて、ロボット操作タスクにおけるデータ効率の大幅な向上を示している。

関連論文リスト

Causal Information Prioritization for Efficient Reinforcement Learning [21.74375718642216]
現在の強化学習(RL)法は、しばしばサンプル効率に悩まされる。最近の因果的アプローチはこの問題に対処することを目的としているが、それらは報酬誘導による状態や行動の因果的理解の基礎的なモデリングを欠いている。本稿では,CIP(Causal Information Prioritization, 因果情報優先化)と呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2025-02-14T11:44:17Z)
Towards Empowerment Gain through Causal Structure Learning in Model-Based RL [35.933469787075]
本稿では,学習効率と制御性を向上させるための新しいフレームワークであるEmpowerment through Causal Learning (ECL)を提案する。 ECLは、まず、収集されたデータに基づいて環境の因果ダイナミクスモデルを訓練する。そして、探索によって収集されたデータを同時に利用して、因果ダイナミクスモデルをより制御しやすいように更新する。
論文参考訳（メタデータ） (2025-02-14T10:59:09Z)
Exploring Knowledge Boundaries in Large Language Models for Retrieval Judgment [56.87031484108484]
大規模言語モデル(LLM)は、その実践的応用でますます認識されている。 Retrieval-Augmented Generation (RAG)はこの課題に取り組み、LLMに大きな影響を与えている。中立あるいは有害な結果をもたらす検索要求を最小化することにより、時間と計算コストの両方を効果的に削減できる。
論文参考訳（メタデータ） (2024-11-09T15:12:28Z)
Variable-Agnostic Causal Exploration for Reinforcement Learning [56.52768265734155]
強化学習のための新しいフレームワークVACERL(Variable-Agnostic Causal Exploration for Reinforcement Learning)を導入する。本手法は,注目機構を用いて,重要変数に関連する重要な観測行動ステップを自動的に同定する。これらのステップを接続する因果グラフを構築し、エージェントをタスク完了に対する因果的影響の大きい観察-作用ペアへと導く。
論文参考訳（メタデータ） (2024-07-17T09:45:27Z)
External Model Motivated Agents: Reinforcement Learning for Enhanced Environment Sampling [3.536024441537599]
強化学習(RL)エージェントとは異なり、人間は環境の変化において有能なマルチタスクのままである。環境変化における外部モデルの適応効率を向上させるために,RLエージェントのエージェント影響フレームワークを提案する。提案手法は,効率と性能の両面を測る指標に対する外部モデル適応の観点から,ベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2024-06-28T23:31:22Z)
Causal Coordinated Concurrent Reinforcement Learning [8.654978787096807]
本稿では,データ共有と協調探索のための新しいアルゴリズムフレームワークを提案する。本アルゴリズムは,独立規制による個人差分制御モデルパラメータの抽出において,付加雑音モデル-混合モデル(ANM-MM)という形で因果推論アルゴリズムを利用する。抽出したモデルパラメータの類似度に基づく新しいデータ共有方式を提案し, 自己回帰, 振り子, カートポールのスイングアップタスクのセットにおいて, 優れた学習速度を示す。
論文参考訳（メタデータ） (2024-01-31T17:20:28Z)
Inapplicable Actions Learning for Knowledge Transfer in Reinforcement Learning [3.194414753332705]
学習不能な動作はRLアルゴリズムのサンプル効率を大幅に向上させることを示す。得られた知識の伝達性のおかげで、学習プロセスをより効率的にするために、他のタスクやドメインで再利用することができる。
論文参考訳（メタデータ） (2022-11-28T17:45:39Z)
Flexible Attention-Based Multi-Policy Fusion for Efficient Deep Reinforcement Learning [78.31888150539258]
強化学習(RL)エージェントは、長い間、人間の学習の効率にアプローチしようとしてきた。 RLにおける以前の研究は、エージェントがサンプル効率を改善するために外部知識ポリシーを取り入れていた。我々は,複数の知識ポリシーを融合させたRLパラダイムであるKGRL(Knowledge-Grounded RL)について述べる。
論文参考訳（メタデータ） (2022-10-07T17:56:57Z)
Denoised MDPs: Learning World Models Better Than the World Itself [94.74665254213588]
本研究は,野生の情報を制御可能性と報酬との関係に基づく4つのタイプに分類し,制御性および報酬関連性の両方に有用な情報を定式化する。 DeepMind Control Suite と RoboDesk の変種に関する実験では、生の観測のみを用いた場合よりも、認知された世界モデルの優れた性能が示されている。
論文参考訳（メタデータ） (2022-06-30T17:59:49Z)
Improving Robustness of Learning-based Autonomous Steering Using Adversarial Images [58.287120077778205]
自動運転用画像入力における学習アルゴリズムw.r.tの堅牢性を解析するためのフレームワークについて紹介する。感度分析の結果を用いて, 「操縦への学習」タスクの総合的性能を向上させるアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-02-26T02:08:07Z)
Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文参考訳（メタデータ） (2020-02-10T04:23:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。