論文の概要: Settling the Reward Hypothesis
- arxiv url: http://arxiv.org/abs/2212.10420v2
- Date: Sat, 16 Sep 2023 14:15:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 01:11:28.865521
- Title: Settling the Reward Hypothesis
- Title(参考訳): 報酬仮説を解決し
- Authors: Michael Bowling, John D. Martin, David Abel, Will Dabney
- Abstract要約: 我々は報酬仮説を完全に解決することを目指している。
これは単純な肯定や反感で結論付けるのではなく、仮説が持つ目標や目的に対する暗黙の要求を完全に規定する。
- 参考スコア(独自算出の注目度): 27.997598425344687
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The reward hypothesis posits that, "all of what we mean by goals and purposes
can be well thought of as maximization of the expected value of the cumulative
sum of a received scalar signal (reward)." We aim to fully settle this
hypothesis. This will not conclude with a simple affirmation or refutation, but
rather specify completely the implicit requirements on goals and purposes under
which the hypothesis holds.
- Abstract(参考訳): 報酬仮説は「私たちが目標と目的によって意味する全てのことは、受信したスカラー信号(reward)の累積和の期待値の最大化と考えることができる」と仮定している。
我々はこの仮説を完全に解決しようとする。
これは単純な肯定や反感で結論付けるのではなく、仮説が持つ目標や目的に対する暗黙の要求を完全に規定する。
関連論文リスト
- Efficient median of means estimator [2.0432586732993374]
基底分布に対する最小の仮定の下で、ほぼ最適定数で準ガウス偏差境界を達成する手段推定器の一般的な中央値の修正を提案する。
論文 参考訳(メタデータ) (2023-05-30T01:43:54Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z) - A Generalized Lottery Ticket Hypothesis [2.507029788458086]
本稿では,パラメータ空間の任意の基底を選択することで,「スパーシティ」の概念を緩和する抽選券仮説の一般化を提案する。
本研究は, 標準ベースで報告された当初の結果が, より広い範囲で維持されている証拠を提示する。
論文 参考訳(メタデータ) (2021-07-03T20:01:24Z) - Order Effects in Bayesian Updates [0.0]
順序効果は、情報列が与えられた仮説の確率に関する判断が、情報が逆転されたときに同じ仮説の確率と等しくない場合に生じる。
我々は,各質問を,回答者が信念を反映したミニ実験と考えることができる順序効果のベイズ更新モデルを提案した。
その結果,2つの質問が相関しているという,応答者の事前の信念という,単純な認知的説明が得られた。
論文 参考訳(メタデータ) (2021-05-16T05:24:04Z) - A Weaker Faithfulness Assumption based on Triple Interactions [89.59955143854556]
より弱い仮定として, 2$-adjacency faithfulness を提案します。
より弱い仮定の下で適用可能な因果発見のための音方向規則を提案する。
論文 参考訳(メタデータ) (2020-10-27T13:04:08Z) - Empirically Verifying Hypotheses Using Reinforcement Learning [58.09414653169534]
本稿では,仮説検証をRL問題として定式化する。
我々は、世界の力学に関する仮説を前提として、仮説が真か偽かを予測するのに役立つ観測結果を生成することができるエージェントを構築することを目指している。
論文 参考訳(メタデータ) (2020-06-29T01:01:10Z) - General Probabilistic Theories with a Gleason-type Theorem [0.0]
量子論のグリーソン型定理は、量子状態空間を復元することを可能にする。
グリーソン型定理も含む一般確率論のクラスを同定する。
論文 参考訳(メタデータ) (2020-05-28T17:29:29Z) - L2R2: Leveraging Ranking for Abductive Reasoning [65.40375542988416]
学習システムの帰納的推論能力を評価するために,帰納的自然言語推論タスク(alpha$NLI)を提案する。
新たな$L2R2$アプローチは、Learning-to-rankフレームワークの下で提案されている。
ARTデータセットの実験は、公開リーダボードの最先端に到達します。
論文 参考訳(メタデータ) (2020-05-22T15:01:23Z) - Distributionally Robust Bayesian Quadrature Optimization [60.383252534861136]
確率分布が未知な分布の不確実性の下でBQOについて検討する。
標準的なBQOアプローチは、固定されたサンプル集合が与えられたときの真の期待目標のモンテカルロ推定を最大化する。
この目的のために,新しい後方サンプリングに基づくアルゴリズム,すなわち分布的に堅牢なBQO(DRBQO)を提案する。
論文 参考訳(メタデータ) (2020-01-19T12:00:33Z) - Bypassing the Kochen-Specker theorem: an explicit non-contextual
statistical model for the qutrit [0.0]
クォートに対する隠れ変数の明示的な非コンテキスト統計モデルについて述べる。
このような絶対的な参照枠の存在は、基本的な物理原理によって要求されるものではない。
論文 参考訳(メタデータ) (2018-05-13T19:37:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。