論文の概要: Did I do that? Blame as a means to identify controlled effects in
reinforcement learning
- arxiv url: http://arxiv.org/abs/2106.00266v1
- Date: Tue, 1 Jun 2021 06:58:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-03 00:28:55.644083
- Title: Did I do that? Blame as a means to identify controlled effects in
reinforcement learning
- Title(参考訳): 私がやったの?
強化学習における制御効果を識別する手段としての非難
- Authors: Oriol Corcoll, Raul Vicente
- Abstract要約: 制御効果ネットワーク(英語: Controled Effect Network, CEN)は、非教師なしの手法である。
CENは、アクション予測に基づいて、一般的なモデルよりも制御された効果を識別できることを示し、幅広い環境で評価されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Modeling controllable aspects of the environment enable better prioritization
of interventions and has become a popular exploration strategy in reinforcement
learning methods. Despite repeatedly achieving State-of-the-Art results, this
approach has only been studied as a proxy to a reward-based task and has not
yet been evaluated on its own. We show that solutions relying on action
prediction fail to model important events. Humans, on the other hand, assign
blame to their actions to decide what they controlled. Here we propose
Controlled Effect Network (CEN), an unsupervised method based on counterfactual
measures of blame. CEN is evaluated in a wide range of environments showing
that it can identify controlled effects better than popular models based on
action prediction.
- Abstract(参考訳): 環境の制御可能な側面をモデル化することで、介入の優先順位付けが向上し、強化学習法における一般的な探索戦略となっている。
繰り返し最先端の成果が得られたにもかかわらず、このアプローチは報酬ベースのタスクのプロキシとしてのみ研究されており、それ自体ではまだ評価されていない。
我々は、アクション予測に依存するソリューションが重要なイベントをモデル化しないことを示す。
一方、人間は自分の行動に責任を負い、自分がコントロールしたものを決定する。
本稿では, 非難対策に基づく教師なし手法である制御効果ネットワーク(CEN)を提案する。
cenは、アクション予測に基づいて、人気のあるモデルよりも制御された効果を識別できることを示す幅広い環境で評価される。
関連論文リスト
- Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration [74.09687562334682]
Debias and Denoise Attribution (DDA) と呼ばれる新しいトレーニングデータ属性法を導入する。
提案手法は既存のアプローチよりも優れており,平均91.64%のAUCを実現している。
DDAは、様々なソースとLLaMA2、QWEN2、Mistralのような異なるスケールのモデルに対して、強力な汎用性とスケーラビリティを示す。
論文 参考訳(メタデータ) (2024-10-02T07:14:26Z) - Limitations of Agents Simulated by Predictive Models [1.6649383443094403]
エージェントとなると予測モデルが失敗する2つの構造的理由を概説する。
いずれの障害も環境からのフィードバックループを組み込むことで修正可能であることを示す。
我々の治療は、これらの障害モードの統一的なビューを提供し、オンライン学習でオフライン学習ポリシーを微調整することで、より効果的になる理由を疑問視する。
論文 参考訳(メタデータ) (2024-02-08T17:08:08Z) - Ground(less) Truth: A Causal Framework for Proxy Labels in
Human-Algorithm Decision-Making [29.071173441651734]
人間のAI意思決定タスクにおけるプロキシラベルの有効性に影響を与える5つの変数バイアス源を同定する。
各バイアス間の関係を乱すための因果的枠組みを開発する。
今後の研究において、ターゲット変数バイアスに対処する機会について論じる。
論文 参考訳(メタデータ) (2023-02-13T16:29:11Z) - Play with Emotion: Affect-Driven Reinforcement Learning [3.611888922173257]
本稿では、強化学習プロセスとして、感情モデリングの課題を観ることによるパラダイムシフトを紹介する。
我々は,Go-Blendエージェントをトレーニングし,覚醒と行動の人間の実演をモデル化することで,レースゲームにおける仮説を検証した。
論文 参考訳(メタデータ) (2022-08-26T12:28:24Z) - Empirical Estimates on Hand Manipulation are Recoverable: A Step Towards
Individualized and Explainable Robotic Support in Everyday Activities [80.37857025201036]
ロボットシステムの鍵となる課題は、他のエージェントの振る舞いを理解することである。
正しい推論の処理は、(衝突)因子が実験的に制御されない場合、特に困難である。
人に関する観察研究を行うために必要なツールをロボットに装備することを提案する。
論文 参考訳(メタデータ) (2022-01-27T22:15:56Z) - Balancing detectability and performance of attacks on the control
channel of Markov Decision Processes [77.66954176188426]
マルコフ決定過程(MDPs)の制御チャネルにおける最適ステルス毒素攻撃の設計問題について検討する。
この研究は、MDPに適用された敵国・毒殺攻撃や強化学習(RL)手法に対する研究コミュニティの最近の関心に動機づけられている。
論文 参考訳(メタデータ) (2021-09-15T09:13:10Z) - Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文 参考訳(メタデータ) (2020-07-27T22:19:01Z) - Counterfactual Predictions under Runtime Confounding [74.90756694584839]
本研究は, 過去のデータからすべての関連要因を抽出した環境で, 事実予測タスクについて検討する。
本稿では,この環境下での対実予測モデル学習のための2次ロバスト手法を提案する。
論文 参考訳(メタデータ) (2020-06-30T15:49:05Z) - From Predictions to Decisions: Using Lookahead Regularization [28.709041337894107]
ユーザアクションを予測することで、予測モデルが結果を改善するアクションを誘発するように促すルックアヘッド正規化を導入する。
本稿では,本手法の有効性を示す実データおよび合成データに関する実験結果について報告する。
論文 参考訳(メタデータ) (2020-06-20T19:23:03Z) - Goal-Conditioned End-to-End Visuomotor Control for Versatile Skill
Primitives [89.34229413345541]
本稿では,制御器とその条件をエンドツーエンドに学習することで,落とし穴を回避する条件付け手法を提案する。
本モデルでは,ロボットの動きのダイナミックな画像表現に基づいて,複雑な動作シーケンスを予測する。
代表的MPCおよびILベースラインに対するタスク成功の大幅な改善を報告した。
論文 参考訳(メタデータ) (2020-03-19T15:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。