論文の概要: Settling the Reward Hypothesis
- arxiv url: http://arxiv.org/abs/2212.10420v2
- Date: Sat, 16 Sep 2023 14:15:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 01:11:28.865521
- Title: Settling the Reward Hypothesis
- Title(参考訳): 報酬仮説を解決し
- Authors: Michael Bowling, John D. Martin, David Abel, Will Dabney
- Abstract要約: 我々は報酬仮説を完全に解決することを目指している。
これは単純な肯定や反感で結論付けるのではなく、仮説が持つ目標や目的に対する暗黙の要求を完全に規定する。
- 参考スコア(独自算出の注目度): 27.997598425344687
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The reward hypothesis posits that, "all of what we mean by goals and purposes
can be well thought of as maximization of the expected value of the cumulative
sum of a received scalar signal (reward)." We aim to fully settle this
hypothesis. This will not conclude with a simple affirmation or refutation, but
rather specify completely the implicit requirements on goals and purposes under
which the hypothesis holds.
- Abstract(参考訳): 報酬仮説は「私たちが目標と目的によって意味する全てのことは、受信したスカラー信号(reward)の累積和の期待値の最大化と考えることができる」と仮定している。
我々はこの仮説を完全に解決しようとする。
これは単純な肯定や反感で結論付けるのではなく、仮説が持つ目標や目的に対する暗黙の要求を完全に規定する。
関連論文リスト
- Infinite Ends from Finite Samples: Open-Ended Goal Inference as Top-Down Bayesian Filtering of Bottom-Up Proposals [48.437581268398866]
オープンエンドゴール推論のシーケンシャルなモンテカルロモデルを導入する。
我々はこのモデルをブロックワードと呼ばれるゴール推論タスクで検証する。
実験では,人間理論の速度,精度,一般性を説明する上で,トップダウンモデルとボトムアップモデルを組み合わせることの重要性を強調した。
論文 参考訳(メタデータ) (2024-07-23T18:04:40Z) - Winner-takes-all learners are geometry-aware conditional density estimators [27.23421724971587]
条件密度推定において,各学習者の魅力ある幾何学的特性を活用する方法を示す。
我々は、量子化と密度推定の両面から、新しい推定器の利点を理論的に確立する。
論文 参考訳(メタデータ) (2024-06-07T07:28:22Z) - Source-Free Unsupervised Domain Adaptation with Hypothesis Consolidation
of Prediction Rationale [53.152460508207184]
Source-Free Unsupervised Domain Adaptation (SFUDA)は、モデルがターゲットのドメインラベルやソースドメインデータにアクセスせずに新しいドメインに適応する必要がある、という課題である。
本稿では,各サンプルについて複数の予測仮説を考察し,各仮説の背景にある理論的根拠について考察する。
最適性能を達成するために,モデル事前適応,仮説統合,半教師付き学習という3段階の適応プロセスを提案する。
論文 参考訳(メタデータ) (2024-02-02T05:53:22Z) - Efficient median of means estimator [2.0432586732993374]
基底分布に対する最小の仮定の下で、ほぼ最適定数で準ガウス偏差境界を達成する手段推定器の一般的な中央値の修正を提案する。
論文 参考訳(メタデータ) (2023-05-30T01:43:54Z) - A Generalized Lottery Ticket Hypothesis [2.507029788458086]
本稿では,パラメータ空間の任意の基底を選択することで,「スパーシティ」の概念を緩和する抽選券仮説の一般化を提案する。
本研究は, 標準ベースで報告された当初の結果が, より広い範囲で維持されている証拠を提示する。
論文 参考訳(メタデータ) (2021-07-03T20:01:24Z) - Order Effects in Bayesian Updates [0.0]
順序効果は、情報列が与えられた仮説の確率に関する判断が、情報が逆転されたときに同じ仮説の確率と等しくない場合に生じる。
我々は,各質問を,回答者が信念を反映したミニ実験と考えることができる順序効果のベイズ更新モデルを提案した。
その結果,2つの質問が相関しているという,応答者の事前の信念という,単純な認知的説明が得られた。
論文 参考訳(メタデータ) (2021-05-16T05:24:04Z) - A Weaker Faithfulness Assumption based on Triple Interactions [89.59955143854556]
より弱い仮定として, 2$-adjacency faithfulness を提案します。
より弱い仮定の下で適用可能な因果発見のための音方向規則を提案する。
論文 参考訳(メタデータ) (2020-10-27T13:04:08Z) - Empirically Verifying Hypotheses Using Reinforcement Learning [58.09414653169534]
本稿では,仮説検証をRL問題として定式化する。
我々は、世界の力学に関する仮説を前提として、仮説が真か偽かを予測するのに役立つ観測結果を生成することができるエージェントを構築することを目指している。
論文 参考訳(メタデータ) (2020-06-29T01:01:10Z) - Distributionally Robust Bayesian Quadrature Optimization [60.383252534861136]
確率分布が未知な分布の不確実性の下でBQOについて検討する。
標準的なBQOアプローチは、固定されたサンプル集合が与えられたときの真の期待目標のモンテカルロ推定を最大化する。
この目的のために,新しい後方サンプリングに基づくアルゴリズム,すなわち分布的に堅牢なBQO(DRBQO)を提案する。
論文 参考訳(メタデータ) (2020-01-19T12:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。