Fugu-MT 論文翻訳(概要): The Optimal Choice of Hypothesis Is the Weakest, Not the Shortest

論文の概要: The Optimal Choice of Hypothesis Is the Weakest, Not the Shortest

arxiv url: http://arxiv.org/abs/2301.12987v3
Date: Tue, 25 Apr 2023 07:23:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-26 23:42:05.492159
Title: The Optimal Choice of Hypothesis Is the Weakest, Not the Shortest
Title（参考訳）: 仮説の最適選択は最も弱く、最短ではない
Authors: Michael Timothy Bennett
Abstract要約: 1つの戦略は、情報を圧縮する能力と一般化する能力とを同一に、最も短いものを選択することである。圧縮は性能を最大化するのに必要でも十分でもないことを示す。これは弱点がはるかに優れたプロキシであることを示し、DeepmindのApperception Engineが効果的に一般化できる理由を説明しています。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: If $A$ and $B$ are sets such that $A \subset B$, generalisation may be understood as the inference from $A$ of a hypothesis sufficient to construct $B$. One might infer any number of hypotheses from $A$, yet only some of those may generalise to $B$. How can one know which are likely to generalise? One strategy is to choose the shortest, equating the ability to compress information with the ability to generalise (a proxy for intelligence). We examine this in the context of a mathematical formalism of enactive cognition. We show that compression is neither necessary nor sufficient to maximise performance (measured in terms of the probability of a hypothesis generalising). We formulate a proxy unrelated to length or simplicity, called weakness. We show that if tasks are uniformly distributed, then there is no choice of proxy that performs at least as well as weakness maximisation in all tasks while performing strictly better in at least one. In experiments comparing maximum weakness and minimum description length in the context of binary arithmetic, the former generalised at between $1.1$ and $5$ times the rate of the latter. We argue this demonstrates that weakness is a far better proxy, and explains why Deepmind's Apperception Engine is able to generalise effectively.
Abstract（参考訳）: もし$A$と$B$が$A \subset B$であるような集合であれば、一般化は$B$を構成するのに十分な仮説の$A$からの推論として理解することができる。 A$から任意の数の仮説を推測できるが、それらのいくつかだけが$B$に一般化できる。どちらが一般化しそうなのか、どうしてわかるのか? 一つの戦略は最も短いものを選び、情報を圧縮する能力と一般化する能力(知能の代理人)を同等にすることである。我々は、エンアクティブ認知の数学的形式論の文脈でこれを調べる。圧縮は性能を最大化するのに必要でも十分でもないことを示す(仮説の一般化の確率の観点から測る)。弱点と呼ばれる長さや単純さに関係のないプロキシを定式化する。タスクが一様に分散している場合、少なくともすべてのタスクにおいて弱点を最大化しながら、少なくとも1つで厳密に実行するプロキシの選択肢がないことを示す。 2進算術の文脈における最大弱さと最小記述長を比較する実験では、前者は後者の1.1ドルから5ドルの間で一般化した。これは弱点がはるかに優れたプロキシであることを示し、DeepmindのApperception Engineが効果的に一般化できる理由を説明する。

関連論文リスト

Simple Convergence Proof of Adam From a Sign-like Descent Perspective [58.89890024903816]
我々は、Adamが以前の$cal O(fracln TTs14)$よりも$cal O(frac1Ts14)$の最適なレートを達成することを示す。我々の理論分析は、収束を保証する重要な要因として運動量の役割に関する新たな洞察を提供する。
論文参考訳（メタデータ） (2025-07-08T13:19:26Z)
A Simple Approximation Algorithm for Optimal Decision Tree [5.26062227842158]
最適決定木(odt)は、アクティブラーニング、エンティティ識別、医療診断などの応用における基本的な問題である。各クエリはコストを発生させ、各仮説に対して既知の応答を持つ。 odt の簡単なアルゴリズムと解析を行い,近似比が 8 ln m$ であることを示す。
論文参考訳（メタデータ） (2025-05-21T15:21:56Z)
Sharp Rates in Dependent Learning Theory: Avoiding Sample Size Deflation for the Square Loss [33.18537822803389]
L2$ と $Psi_p$ の位相が我々の仮説クラス $mathscrF$, $mathscrF$ に同値であるときにいつでも、$mathscrF$ は弱準ガウス類であることを示す。以上の結果から, 混合への直接的な依存は高次項に還元されるため, この問題は実現可能か否かを判断できる。
論文参考訳（メタデータ） (2024-02-08T18:57:42Z)
Estimating Optimal Policy Value in General Linear Contextual Bandits [50.008542459050155]
多くのバンドイット問題において、政策によって達成可能な最大報酬は、前もって不明であることが多い。我々は,最適政策が学習される前に,サブ線形データ構造における最適政策値を推定する問題を考察する。 V*$で問題依存上界を推定する,より実用的で効率的なアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-02-19T01:09:24Z)
On Computing Probabilistic Explanations for Decision Trees [4.406418914680962]
十分な理由は、決定木を$T$とインスタンスを$x$とすると、決定を$T(x)$とします。本稿では,決定木に対する$delta$sufficient-reasonsの計算複雑性について検討する。決定木の構造的制約を識別し,SATソルバがこれらの問題に実際にどのように対処できるかを示す。
論文参考訳（メタデータ） (2022-06-30T21:58:31Z)
There is no Accuracy-Interpretability Tradeoff in Reinforcement Learning for Mazes [64.05903267230467]
相互理解性は,強化学習システムにおける信頼性に不可欠なビルディングブロックである。場合によっては、最適性を保ちつつ、政策の解釈可能性を達成することができることを示す。
論文参考訳（メタデータ） (2022-06-09T04:23:26Z)
A Post-Quantum Associative Memory [5.2178708158547025]
連想記憶(Associative memory)は、その部分的開示によって完全に検索できる情報を記憶する装置である。本稿では, 一般確率論の枠組みの中で, 連想記憶のおもちゃモデルとその限界について検討する。
論文参考訳（メタデータ） (2022-01-28T18:10:19Z)
Under-bagging Nearest Neighbors for Imbalanced Classification [63.026765294759876]
我々は,不均衡な分類問題に対して,textitunder-bagging $k$-NN (textitunder-bagging $k$-NN) というアンサンブル学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-09-01T14:10:38Z)
Agnostic learning with unknown utilities [70.14742836006042]
現実世界の多くの問題において、決定の効用は基礎となる文脈である$x$ と decision $y$ に依存する。我々はこれを未知のユーティリティによる不可知学習として研究する。サンプルされた点のみのユーティリティを推定することで、よく一般化した決定関数を学習できることを示す。
論文参考訳（メタデータ） (2021-04-17T08:22:04Z)
Learning Near Optimal Policies with Low Inherent Bellman Error [115.16037976819331]
エピソード強化学習における近似線形作用値関数を用いた探索問題について検討する。我々は,検討した設定に対して最適な統計率を達成するアルゴリズムを用いて,Emphbatch仮定のみを用いて探索を行うことが可能であることを示す。
論文参考訳（メタデータ） (2020-02-29T02:02:40Z)
Locally Private Hypothesis Selection [96.06118559817057]
我々は、$mathcalQ$から$p$までの総変動距離が最良の分布に匹敵する分布を出力する。局所的な差分プライバシーの制約は、コストの急激な増加を引き起こすことを示す。提案アルゴリズムは,従来手法のラウンド複雑性を指数関数的に改善する。
論文参考訳（メタデータ） (2020-02-21T18:30:48Z)
Boosting Simple Learners [45.09968166110557]
i) 複雑さ: 正確な仮説を生成するために弱い仮説がいくつ必要か? 我々は、Freund and Schapireによる古典的下界を回避できる新しいブースティングアルゴリズムを設計する('95, '12)。半空間と決定切り株を含む、よく研究された論理クラスに対する2つ目の質問に対する肯定的な回答を提供する。
論文参考訳（メタデータ） (2020-01-31T08:34:56Z)
Does generalization performance of $l^q$ regularization learning depend on $q$? A negative example [19.945160684285003]
$lq$-regularizationは、機械学習と統計モデリングにおいて魅力的なテクニックであることが示されている。 0 infty$ に対するすべての $lq$ 推定子は、同様の一般化誤差境界が得られることを示す。この発見は、あるモデリングの文脈において、$q$の選択が一般化能力に強い影響を与えることはないことを仮に示している。
論文参考訳（メタデータ） (2013-07-25T00:48:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。