Fugu-MT 論文翻訳(概要): Did I do that? Blame as a means to identify controlled effects in reinforcement learning

論文の概要: Did I do that? Blame as a means to identify controlled effects in reinforcement learning

arxiv url: http://arxiv.org/abs/2106.00266v1
Date: Tue, 1 Jun 2021 06:58:31 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-03 00:28:55.644083
Title: Did I do that? Blame as a means to identify controlled effects in reinforcement learning
Title（参考訳）: 私がやったの? 強化学習における制御効果を識別する手段としての非難
Authors: Oriol Corcoll, Raul Vicente
Abstract要約: 制御効果ネットワーク(英語: Controled Effect Network, CEN)は、非教師なしの手法である。 CENは、アクション予測に基づいて、一般的なモデルよりも制御された効果を識別できることを示し、幅広い環境で評価されている。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Modeling controllable aspects of the environment enable better prioritization of interventions and has become a popular exploration strategy in reinforcement learning methods. Despite repeatedly achieving State-of-the-Art results, this approach has only been studied as a proxy to a reward-based task and has not yet been evaluated on its own. We show that solutions relying on action prediction fail to model important events. Humans, on the other hand, assign blame to their actions to decide what they controlled. Here we propose Controlled Effect Network (CEN), an unsupervised method based on counterfactual measures of blame. CEN is evaluated in a wide range of environments showing that it can identify controlled effects better than popular models based on action prediction.
Abstract（参考訳）: 環境の制御可能な側面をモデル化することで、介入の優先順位付けが向上し、強化学習法における一般的な探索戦略となっている。繰り返し最先端の成果が得られたにもかかわらず、このアプローチは報酬ベースのタスクのプロキシとしてのみ研究されており、それ自体ではまだ評価されていない。我々は、アクション予測に依存するソリューションが重要なイベントをモデル化しないことを示す。一方、人間は自分の行動に責任を負い、自分がコントロールしたものを決定する。本稿では, 非難対策に基づく教師なし手法である制御効果ネットワーク(CEN)を提案する。 cenは、アクション予測に基づいて、人気のあるモデルよりも制御された効果を識別できることを示す幅広い環境で評価される。

関連論文リスト

The Role of Explanation Styles and Perceived Accuracy on Decision Making in Predictive Process Monitoring [1.2808136856881935]
説明可能なAI(XAI)は、予測の背後にある推論を提供することで、この問題に対処することを目指している。予測プロセスモニタリング(PPM)におけるXAIの現在の評価は、主にユーザ中心の側面を見渡す機能メトリクスに焦点を当てています。本研究では, 意思決定における説明スタイル(機能的重要性, ルールベース, 対実的)とAIの精度(低いか高いか)の影響について検討した。
論文参考訳（メタデータ） (2025-06-19T21:30:28Z)
The Amenability Framework: Rethinking Causal Ordering Without Estimating Causal Effects [1.6114012813668932]
本稿では,介入の影響を受けやすい個体の潜伏傾向に基づく概念的枠組みを提案する。次に、予測スコアがアメナビリティーの効果的なプロキシとなる条件を定式化する。その結果,予測モデルは介入効果による個人格付けにおける因果効果推定よりも優れていることがわかった。
論文参考訳（メタデータ） (2025-04-03T10:20:48Z)
ACT-JEPA: Novel Joint-Embedding Predictive Architecture for Efficient Policy Representation Learning [90.41852663775086]
ACT-JEPAは模倣学習と自己教師型学習を統合する新しいアーキテクチャである。我々はアクションシーケンスと抽象的な観察シーケンスを予測するポリシーを訓練する。実験の結果,ACT-JEPAは時間環境の動的学習によって表現の質を向上させることがわかった。
論文参考訳（メタデータ） (2025-01-24T16:41:41Z)
Reducing Action Space for Deep Reinforcement Learning via Causal Effect Estimation [15.684669299728743]
本研究では,行動の因果効果を推定し,探索効率を向上させる手法を提案する。まず、環境の事前知識として機能するために、逆ダイナミクスモデルを事前訓練する。各ステップでアクション空間全体にわたってアクションを分類し、各アクションの因果効果を推定し、冗長なアクションを抑制する。
論文参考訳（メタデータ） (2025-01-24T14:47:33Z)
Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration [74.09687562334682]
Debias and Denoise Attribution (DDA) と呼ばれる新しいトレーニングデータ属性法を導入する。提案手法は既存のアプローチよりも優れており,平均91.64%のAUCを実現している。 DDAは、様々なソースとLLaMA2、QWEN2、Mistralのような異なるスケールのモデルに対して、強力な汎用性とスケーラビリティを示す。
論文参考訳（メタデータ） (2024-10-02T07:14:26Z)
Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文参考訳（メタデータ） (2024-04-08T14:15:56Z)
Limitations of Agents Simulated by Predictive Models [1.6649383443094403]
エージェントとなると予測モデルが失敗する2つの構造的理由を概説する。いずれの障害も環境からのフィードバックループを組み込むことで修正可能であることを示す。我々の治療は、これらの障害モードの統一的なビューを提供し、オンライン学習でオフライン学習ポリシーを微調整することで、より効果的になる理由を疑問視する。
論文参考訳（メタデータ） (2024-02-08T17:08:08Z)
Ground(less) Truth: A Causal Framework for Proxy Labels in Human-Algorithm Decision-Making [29.071173441651734]
人間のAI意思決定タスクにおけるプロキシラベルの有効性に影響を与える5つの変数バイアス源を同定する。各バイアス間の関係を乱すための因果的枠組みを開発する。今後の研究において、ターゲット変数バイアスに対処する機会について論じる。
論文参考訳（メタデータ） (2023-02-13T16:29:11Z)
Play with Emotion: Affect-Driven Reinforcement Learning [3.611888922173257]
本稿では、強化学習プロセスとして、感情モデリングの課題を観ることによるパラダイムシフトを紹介する。我々は,Go-Blendエージェントをトレーニングし,覚醒と行動の人間の実演をモデル化することで,レースゲームにおける仮説を検証した。
論文参考訳（メタデータ） (2022-08-26T12:28:24Z)
The Amenability Framework: Rethinking Causal Ordering Without Estimating Causal Effects [1.6114012813668932]
本研究では、介入効果による個人格付けにおける因果効果推定値よりも予測モデルの方が優れていることを示す。我々のフレームワークは、効果を見積もるから、予測可能な人を推測するへと焦点を移すことを示唆している。
論文参考訳（メタデータ） (2022-06-25T02:15:22Z)
Empirical Estimates on Hand Manipulation are Recoverable: A Step Towards Individualized and Explainable Robotic Support in Everyday Activities [80.37857025201036]
ロボットシステムの鍵となる課題は、他のエージェントの振る舞いを理解することである。正しい推論の処理は、(衝突)因子が実験的に制御されない場合、特に困難である。人に関する観察研究を行うために必要なツールをロボットに装備することを提案する。
論文参考訳（メタデータ） (2022-01-27T22:15:56Z)
Balancing detectability and performance of attacks on the control channel of Markov Decision Processes [77.66954176188426]
マルコフ決定過程(MDPs)の制御チャネルにおける最適ステルス毒素攻撃の設計問題について検討する。この研究は、MDPに適用された敵国・毒殺攻撃や強化学習(RL)手法に対する研究コミュニティの最近の関心に動機づけられている。
論文参考訳（メタデータ） (2021-09-15T09:13:10Z)
Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文参考訳（メタデータ） (2020-07-27T22:19:01Z)
Counterfactual Predictions under Runtime Confounding [74.90756694584839]
本研究は, 過去のデータからすべての関連要因を抽出した環境で, 事実予測タスクについて検討する。本稿では,この環境下での対実予測モデル学習のための2次ロバスト手法を提案する。
論文参考訳（メタデータ） (2020-06-30T15:49:05Z)
From Predictions to Decisions: Using Lookahead Regularization [28.709041337894107]
ユーザアクションを予測することで、予測モデルが結果を改善するアクションを誘発するように促すルックアヘッド正規化を導入する。本稿では,本手法の有効性を示す実データおよび合成データに関する実験結果について報告する。
論文参考訳（メタデータ） (2020-06-20T19:23:03Z)
Goal-Conditioned End-to-End Visuomotor Control for Versatile Skill Primitives [89.34229413345541]
本稿では,制御器とその条件をエンドツーエンドに学習することで,落とし穴を回避する条件付け手法を提案する。本モデルでは,ロボットの動きのダイナミックな画像表現に基づいて,複雑な動作シーケンスを予測する。代表的MPCおよびILベースラインに対するタスク成功の大幅な改善を報告した。
論文参考訳（メタデータ） (2020-03-19T15:04:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。