論文の概要: Empirically Verifying Hypotheses Using Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2006.15762v1
- Date: Mon, 29 Jun 2020 01:01:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 13:09:00.830214
- Title: Empirically Verifying Hypotheses Using Reinforcement Learning
- Title(参考訳): 強化学習による仮説の実証検証
- Authors: Kenneth Marino, Rob Fergus, Arthur Szlam, Abhinav Gupta
- Abstract要約: 本稿では,仮説検証をRL問題として定式化する。
我々は、世界の力学に関する仮説を前提として、仮説が真か偽かを予測するのに役立つ観測結果を生成することができるエージェントを構築することを目指している。
- 参考スコア(独自算出の注目度): 58.09414653169534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper formulates hypothesis verification as an RL problem. Specifically,
we aim to build an agent that, given a hypothesis about the dynamics of the
world, can take actions to generate observations which can help predict whether
the hypothesis is true or false. Existing RL algorithms fail to solve this
task, even for simple environments. In order to train the agents, we exploit
the underlying structure of many hypotheses, factorizing them as
{pre-condition, action sequence, post-condition} triplets. By leveraging this
structure we show that RL agents are able to succeed at the task. Furthermore,
subsequent fine-tuning of the policies allows the agent to correctly verify
hypotheses not amenable to the above factorization.
- Abstract(参考訳): 本稿では,仮説検証をRL問題として定式化する。
具体的には、世界の力学に関する仮説を前提として、仮説が真か偽かを予測するのに役立つ観測結果を生成することができるエージェントを構築することを目的とする。
既存のRLアルゴリズムはこの問題を単純な環境でも解決できない。
エージェントを訓練するために、多くの仮説の基盤構造を利用して、それらを {pre-condition, action sequence, post-condition}三つ子として分解する。
この構造を利用することで、rlエージェントがそのタスクで成功できることを示す。
さらに、その後のポリシーの微調整により、エージェントは上記の因子化に従わない仮説を正しく検証することができる。
関連論文リスト
- Resolving Multiple-Dynamic Model Uncertainty in Hypothesis-Driven Belief-MDPs [4.956709222278243]
複数の仮説に対する推論を可能にする仮説駆動の信念 MDP を提案する。
また,(ほぼ)正しい仮説を確定し,基礎となるPOMDPで良好に機能するという目標をバランスづける新たな信念であるMDPを提案する。
論文 参考訳(メタデータ) (2024-11-21T18:36:19Z) - Hypothetical Minds: Scaffolding Theory of Mind for Multi-Agent Tasks with Large Language Models [4.9108308035618515]
マルチエージェント強化学習(MARL)法はマルチエージェントシステムの非定常性に対処する。
ここでは、大きな言語モデル(LLM)を活用して、これらの課題に対処できる自律エージェントを作成します。
私たちのエージェントである仮説的マインドスは、認知にインスパイアされたアーキテクチャで構成されており、知覚、記憶、階層的な2段階の抽象化計画のためのモジュラーコンポーネントを備えています。
論文 参考訳(メタデータ) (2024-07-09T17:57:15Z) - Source-Free Unsupervised Domain Adaptation with Hypothesis Consolidation
of Prediction Rationale [53.152460508207184]
Source-Free Unsupervised Domain Adaptation (SFUDA)は、モデルがターゲットのドメインラベルやソースドメインデータにアクセスせずに新しいドメインに適応する必要がある、という課題である。
本稿では,各サンプルについて複数の予測仮説を考察し,各仮説の背景にある理論的根拠について考察する。
最適性能を達成するために,モデル事前適応,仮説統合,半教師付き学習という3段階の適応プロセスを提案する。
論文 参考訳(メタデータ) (2024-02-02T05:53:22Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z) - Nested Counterfactual Identification from Arbitrary Surrogate
Experiments [95.48089725859298]
観測と実験の任意の組み合わせからネスト反事実の同定について検討した。
具体的には、任意のネストされた反事実を非ネストされたものへ写像できる反ファクト的非ネスト定理(英語版)(CUT)を証明する。
論文 参考訳(メタデータ) (2021-07-07T12:51:04Z) - What is Going on Inside Recurrent Meta Reinforcement Learning Agents? [63.58053355357644]
recurrent meta reinforcement learning (meta-rl)エージェントは「学習アルゴリズムの学習」を目的としてrecurrent neural network (rnn)を使用するエージェントである。
部分観測可能なマルコフ決定プロセス(POMDP)フレームワークを用いてメタRL問題を再構成することにより,これらのエージェントの内部動作機構を明らかにする。
論文 参考訳(メタデータ) (2021-04-29T20:34:39Z) - A General Framework for Distributed Inference with Uncertain Models [14.8884251609335]
異種エージェントのネットワークを用いた分散分類の問題について検討する。
我々は、エージェントの不確実性を可能性に組み込む不確実性モデルの概念に基づいて構築する。
論文 参考訳(メタデータ) (2020-11-20T22:17:12Z) - Weakly Supervised Disentangled Generative Causal Representation Learning [21.392372783459013]
本研究は, 従来手法では, 監督下においても, 因果関係の要因を解消できないことを示す。
本稿では、因果制御可能な生成と因果表現学習を可能にする、新たな非絡み合い学習法を提案する。
論文 参考訳(メタデータ) (2020-10-06T11:38:41Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。