論文の概要: The Optimal Choice of Hypothesis Is the Weakest, Not the Shortest
- arxiv url: http://arxiv.org/abs/2301.12987v4
- Date: Thu, 11 Apr 2024 05:02:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 19:46:03.436237
- Title: The Optimal Choice of Hypothesis Is the Weakest, Not the Shortest
- Title(参考訳): 仮説の最適選択は最も弱く、最短ではない
- Authors: Michael Timothy Bennett,
- Abstract要約: 1つの戦略は、情報を圧縮する能力と一般化する能力とを同一に、最も短いものを選択することである。
圧縮は性能を最大化するのに必要でも十分でもないことを示す。
これは弱点がはるかに優れたプロキシであることを示し、DeepmindのApperception Engineが効果的に一般化できる理由を説明しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: If $A$ and $B$ are sets such that $A \subset B$, generalisation may be understood as the inference from $A$ of a hypothesis sufficient to construct $B$. One might infer any number of hypotheses from $A$, yet only some of those may generalise to $B$. How can one know which are likely to generalise? One strategy is to choose the shortest, equating the ability to compress information with the ability to generalise (a proxy for intelligence). We examine this in the context of a mathematical formalism of enactive cognition. We show that compression is neither necessary nor sufficient to maximise performance (measured in terms of the probability of a hypothesis generalising). We formulate a proxy unrelated to length or simplicity, called weakness. We show that if tasks are uniformly distributed, then there is no choice of proxy that performs at least as well as weakness maximisation in all tasks while performing strictly better in at least one. In experiments comparing maximum weakness and minimum description length in the context of binary arithmetic, the former generalised at between $1.1$ and $5$ times the rate of the latter. We argue this demonstrates that weakness is a far better proxy, and explains why Deepmind's Apperception Engine is able to generalise effectively.
- Abstract(参考訳): もし$A$と$B$が$A \subset B$であるような集合であれば、一般化は$B$を構成するのに十分な仮説の$A$からの推論として理解することができる。
任意の数の仮説を$A$から推測することもあるが、それらのいくつかだけが$B$に一般化できる。
どちらが一般化しそうなのか、どうしてわかるのか?
1つの戦略は、情報を圧縮する能力と一般化する能力(インテリジェンスのためのプロキシ)を同一にすることで、最も短いものを選択することである。
我々はこれを数学的な形式的認知の文脈で検討する。
圧縮は性能を最大化するのに必要でも十分でもないことを示す(仮説の一般化の確率の観点から測る)。
私たちは、弱点と呼ばれる長さや単純さとは無関係なプロキシを定式化します。
タスクが均一に分散されている場合、少なくともすべてのタスクにおいて弱点を最大化しつつ、少なくとも1つのタスクで厳格にパフォーマンスを向上するプロキシの選択はないことを示す。
2進算術の文脈における最大弱さと最小記述長を比較する実験では、前者は後者の1.1ドルから5ドルの間で一般化した。
これは弱点がはるかに優れたプロキシであることを示し、DeepmindのApperception Engineが効果的に一般化できる理由を説明しています。
関連論文リスト
- Sharp Rates in Dependent Learning Theory: Avoiding Sample Size Deflation for the Square Loss [33.18537822803389]
L2$ と $Psi_p$ の位相が我々の仮説クラス $mathscrF$, $mathscrF$ に同値であるときにいつでも、$mathscrF$ は弱準ガウス類であることを示す。
以上の結果から, 混合への直接的な依存は高次項に還元されるため, この問題は実現可能か否かを判断できる。
論文 参考訳(メタデータ) (2024-02-08T18:57:42Z) - Estimating Optimal Policy Value in General Linear Contextual Bandits [50.008542459050155]
多くのバンドイット問題において、政策によって達成可能な最大報酬は、前もって不明であることが多い。
我々は,最適政策が学習される前に,サブ線形データ構造における最適政策値を推定する問題を考察する。
V*$で問題依存上界を推定する,より実用的で効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-19T01:09:24Z) - On Computing Probabilistic Explanations for Decision Trees [4.406418914680962]
十分な理由は、決定木を$T$とインスタンスを$x$とすると、決定を$T(x)$とします。
本稿では,決定木に対する$delta$sufficient-reasonsの計算複雑性について検討する。
決定木の構造的制約を識別し,SATソルバがこれらの問題に実際にどのように対処できるかを示す。
論文 参考訳(メタデータ) (2022-06-30T21:58:31Z) - There is no Accuracy-Interpretability Tradeoff in Reinforcement Learning
for Mazes [64.05903267230467]
相互理解性は,強化学習システムにおける信頼性に不可欠なビルディングブロックである。
場合によっては、最適性を保ちつつ、政策の解釈可能性を達成することができることを示す。
論文 参考訳(メタデータ) (2022-06-09T04:23:26Z) - A Post-Quantum Associative Memory [5.2178708158547025]
連想記憶(Associative memory)は、その部分的開示によって完全に検索できる情報を記憶する装置である。
本稿では, 一般確率論の枠組みの中で, 連想記憶のおもちゃモデルとその限界について検討する。
論文 参考訳(メタデータ) (2022-01-28T18:10:19Z) - Under-bagging Nearest Neighbors for Imbalanced Classification [63.026765294759876]
我々は,不均衡な分類問題に対して,textitunder-bagging $k$-NN (textitunder-bagging $k$-NN) というアンサンブル学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-09-01T14:10:38Z) - Agnostic learning with unknown utilities [70.14742836006042]
現実世界の多くの問題において、決定の効用は基礎となる文脈である$x$ と decision $y$ に依存する。
我々はこれを未知のユーティリティによる不可知学習として研究する。
サンプルされた点のみのユーティリティを推定することで、よく一般化した決定関数を学習できることを示す。
論文 参考訳(メタデータ) (2021-04-17T08:22:04Z) - Learning Near Optimal Policies with Low Inherent Bellman Error [115.16037976819331]
エピソード強化学習における近似線形作用値関数を用いた探索問題について検討する。
我々は,検討した設定に対して最適な統計率を達成するアルゴリズムを用いて,Emphbatch仮定のみを用いて探索を行うことが可能であることを示す。
論文 参考訳(メタデータ) (2020-02-29T02:02:40Z) - Boosting Simple Learners [45.09968166110557]
i) 複雑さ: 正確な仮説を生成するために弱い仮説がいくつ必要か?
我々は、Freund and Schapireによる古典的下界を回避できる新しいブースティングアルゴリズムを設計する('95, '12)。
半空間と決定切り株を含む、よく研究された論理クラスに対する2つ目の質問に対する肯定的な回答を提供する。
論文 参考訳(メタデータ) (2020-01-31T08:34:56Z) - Does generalization performance of $l^q$ regularization learning depend
on $q$? A negative example [19.945160684285003]
$lq$-regularizationは、機械学習と統計モデリングにおいて魅力的なテクニックであることが示されている。
0 infty$ に対するすべての $lq$ 推定子は、同様の一般化誤差境界が得られることを示す。
この発見は、あるモデリングの文脈において、$q$の選択が一般化能力に強い影響を与えることはないことを仮に示している。
論文 参考訳(メタデータ) (2013-07-25T00:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。