論文の概要: Did I do that? Blame as a means to identify controlled effects in
reinforcement learning
- arxiv url: http://arxiv.org/abs/2106.00266v1
- Date: Tue, 1 Jun 2021 06:58:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-03 00:28:55.644083
- Title: Did I do that? Blame as a means to identify controlled effects in
reinforcement learning
- Title(参考訳): 私がやったの?
強化学習における制御効果を識別する手段としての非難
- Authors: Oriol Corcoll, Raul Vicente
- Abstract要約: 制御効果ネットワーク(英語: Controled Effect Network, CEN)は、非教師なしの手法である。
CENは、アクション予測に基づいて、一般的なモデルよりも制御された効果を識別できることを示し、幅広い環境で評価されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Modeling controllable aspects of the environment enable better prioritization
of interventions and has become a popular exploration strategy in reinforcement
learning methods. Despite repeatedly achieving State-of-the-Art results, this
approach has only been studied as a proxy to a reward-based task and has not
yet been evaluated on its own. We show that solutions relying on action
prediction fail to model important events. Humans, on the other hand, assign
blame to their actions to decide what they controlled. Here we propose
Controlled Effect Network (CEN), an unsupervised method based on counterfactual
measures of blame. CEN is evaluated in a wide range of environments showing
that it can identify controlled effects better than popular models based on
action prediction.
- Abstract(参考訳): 環境の制御可能な側面をモデル化することで、介入の優先順位付けが向上し、強化学習法における一般的な探索戦略となっている。
繰り返し最先端の成果が得られたにもかかわらず、このアプローチは報酬ベースのタスクのプロキシとしてのみ研究されており、それ自体ではまだ評価されていない。
我々は、アクション予測に依存するソリューションが重要なイベントをモデル化しないことを示す。
一方、人間は自分の行動に責任を負い、自分がコントロールしたものを決定する。
本稿では, 非難対策に基づく教師なし手法である制御効果ネットワーク(CEN)を提案する。
cenは、アクション予測に基づいて、人気のあるモデルよりも制御された効果を識別できることを示す幅広い環境で評価される。
関連論文リスト
- ACT-JEPA: Joint-Embedding Predictive Architecture Improves Policy Representation Learning [90.41852663775086]
ACT-JEPAは模倣学習と自己教師型学習を統合する新しいアーキテクチャである。
我々はアクションシーケンスと抽象的な観察シーケンスを予測するポリシーを訓練する。
実験の結果,ACT-JEPAは時間環境の動的学習によって表現の質を向上させることがわかった。
論文 参考訳(メタデータ) (2025-01-24T16:41:41Z) - Reducing Action Space for Deep Reinforcement Learning via Causal Effect Estimation [15.684669299728743]
本研究では,行動の因果効果を推定し,探索効率を向上させる手法を提案する。
まず、環境の事前知識として機能するために、逆ダイナミクスモデルを事前訓練する。
各ステップでアクション空間全体にわたってアクションを分類し、各アクションの因果効果を推定し、冗長なアクションを抑制する。
論文 参考訳(メタデータ) (2025-01-24T14:47:33Z) - Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration [74.09687562334682]
Debias and Denoise Attribution (DDA) と呼ばれる新しいトレーニングデータ属性法を導入する。
提案手法は既存のアプローチよりも優れており,平均91.64%のAUCを実現している。
DDAは、様々なソースとLLaMA2、QWEN2、Mistralのような異なるスケールのモデルに対して、強力な汎用性とスケーラビリティを示す。
論文 参考訳(メタデータ) (2024-10-02T07:14:26Z) - Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。
本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。
さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。
これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z) - Limitations of Agents Simulated by Predictive Models [1.6649383443094403]
エージェントとなると予測モデルが失敗する2つの構造的理由を概説する。
いずれの障害も環境からのフィードバックループを組み込むことで修正可能であることを示す。
我々の治療は、これらの障害モードの統一的なビューを提供し、オンライン学習でオフライン学習ポリシーを微調整することで、より効果的になる理由を疑問視する。
論文 参考訳(メタデータ) (2024-02-08T17:08:08Z) - Ground(less) Truth: A Causal Framework for Proxy Labels in
Human-Algorithm Decision-Making [29.071173441651734]
人間のAI意思決定タスクにおけるプロキシラベルの有効性に影響を与える5つの変数バイアス源を同定する。
各バイアス間の関係を乱すための因果的枠組みを開発する。
今後の研究において、ターゲット変数バイアスに対処する機会について論じる。
論文 参考訳(メタデータ) (2023-02-13T16:29:11Z) - Play with Emotion: Affect-Driven Reinforcement Learning [3.611888922173257]
本稿では、強化学習プロセスとして、感情モデリングの課題を観ることによるパラダイムシフトを紹介する。
我々は,Go-Blendエージェントをトレーニングし,覚醒と行動の人間の実演をモデル化することで,レースゲームにおける仮説を検証した。
論文 参考訳(メタデータ) (2022-08-26T12:28:24Z) - Balancing detectability and performance of attacks on the control
channel of Markov Decision Processes [77.66954176188426]
マルコフ決定過程(MDPs)の制御チャネルにおける最適ステルス毒素攻撃の設計問題について検討する。
この研究は、MDPに適用された敵国・毒殺攻撃や強化学習(RL)手法に対する研究コミュニティの最近の関心に動機づけられている。
論文 参考訳(メタデータ) (2021-09-15T09:13:10Z) - Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文 参考訳(メタデータ) (2020-07-27T22:19:01Z) - Counterfactual Predictions under Runtime Confounding [74.90756694584839]
本研究は, 過去のデータからすべての関連要因を抽出した環境で, 事実予測タスクについて検討する。
本稿では,この環境下での対実予測モデル学習のための2次ロバスト手法を提案する。
論文 参考訳(メタデータ) (2020-06-30T15:49:05Z) - From Predictions to Decisions: Using Lookahead Regularization [28.709041337894107]
ユーザアクションを予測することで、予測モデルが結果を改善するアクションを誘発するように促すルックアヘッド正規化を導入する。
本稿では,本手法の有効性を示す実データおよび合成データに関する実験結果について報告する。
論文 参考訳(メタデータ) (2020-06-20T19:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。