論文の概要: Algorithmic Probability of Large Datasets and the Simplicity Bubble
Problem in Machine Learning
- arxiv url: http://arxiv.org/abs/2112.12275v1
- Date: Wed, 22 Dec 2021 23:44:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-24 14:55:12.607682
- Title: Algorithmic Probability of Large Datasets and the Simplicity Bubble
Problem in Machine Learning
- Title(参考訳): 機械学習における大規模データセットのアルゴリズム的確率と単純気泡問題
- Authors: Felipe S. Abrah\~ao, Hector Zenil, Fabio Porto, Klaus Wehmuth
- Abstract要約: 擬似ランダムジェネレータへのアクセスの有無にかかわらず、計算可能な学習アルゴリズムは、十分に大きなデータセットによって、自然または人工的に常に騙され得ることを示す。
この現象を回避するための枠組みと経験的条件について論じる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When mining large datasets in order to predict new data, limitations of the
principles behind statistical machine learning pose a serious challenge not
only to the Big Data deluge, but also to the traditional assumptions that data
generating processes are biased toward low algorithmic complexity. Even when
one assumes an underlying algorithmic-informational bias toward simplicity in
finite dataset generators, we show that fully automated, with or without access
to pseudo-random generators, computable learning algorithms, in particular
those of statistical nature used in current approaches to machine learning
(including deep learning), can always be deceived, naturally or artificially,
by sufficiently large datasets. In particular, we demonstrate that, for every
finite learning algorithm, there is a sufficiently large dataset size above
which the algorithmic probability of an unpredictable deceiver is an upper
bound (up to a multiplicative constant that only depends on the learning
algorithm) for the algorithmic probability of any other larger dataset. In
other words, very large and complex datasets are as likely to deceive learning
algorithms into a "simplicity bubble" as any other particular dataset. These
deceiving datasets guarantee that any prediction will diverge from the
high-algorithmic-complexity globally optimal solution while converging toward
the low-algorithmic-complexity locally optimal solution. We discuss the
framework and empirical conditions for circumventing this deceptive phenomenon,
moving away from statistical machine learning towards a stronger type of
machine learning based on, or motivated by, the intrinsic power of algorithmic
information theory and computability theory.
- Abstract(参考訳): 新しいデータを予測するために大規模なデータセットをマイニングする場合、統計機械学習の背後にある原則の限界は、ビッグデータの崩壊だけでなく、データ生成プロセスがアルゴリズムの複雑さの低さに偏っているという従来の仮定にも深刻な課題をもたらす。
有限データセット生成器における単純さに対するアルゴリズム情報バイアスを仮定しても、疑似ランダム生成器へのアクセスの有無に関わらず、計算可能な学習アルゴリズム、特に機械学習(ディープラーニングを含む)の現在のアプローチで使用される統計的性質のアルゴリズムは、十分大きなデータセットによって、自然または人工的に、常に欺くことができる。
特に、任意の有限学習アルゴリズムに対して、予測不可能な十進法のアルゴリズム確率が、他の大きなデータセットのアルゴリズム確率の上限(学習アルゴリズムにのみ依存する乗算定数まで)であるような十分に大きなデータセットサイズが存在することを示す。
言い換えれば、非常に大きく複雑なデータセットは、他の特定のデータセットと同様に、学習アルゴリズムを「単純なバブル」に騙す傾向にある。
これらの決定データセットは、任意の予測が高アルゴリズム・複雑度グローバル最適解から分岐し、低アルゴリズム・複雑度局所最適解に向かって収束することを保証している。
本稿では,統計的機械学習から,アルゴリズム情報理論と計算可能性理論の本質的な力に基づく,あるいは動機付けられた,より強力な機械学習へと移行し,この誤認現象を回避するための枠組みと経験的条件について論じる。
関連論文リスト
- Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - Learning to Bound Counterfactual Inference in Structural Causal Models
from Observational and Randomised Data [64.96984404868411]
我々は、従来のEMベースのアルゴリズムを拡張するための全体的なデータの特徴付けを導出する。
新しいアルゴリズムは、そのような混合データソースからモデルパラメータの(不特定性)領域を近似することを学ぶ。
反実的な結果に間隔近似を与え、それが特定可能な場合の点に崩壊する。
論文 参考訳(メタデータ) (2022-12-06T12:42:11Z) - Information bottleneck theory of high-dimensional regression: relevancy,
efficiency and optimality [6.700873164609009]
オーバーフィッティングは機械学習における中心的な課題であるが、多くの大きなニューラルネットワークは容易にトレーニング損失をゼロにする。
トレーニングデータのノイズを符号化する適合モデルのビットとして定義される残差情報による過度適合の定量化を行う。
論文 参考訳(メタデータ) (2022-08-08T00:09:12Z) - A Survey of Learning on Small Data: Generalization, Optimization, and
Challenge [101.27154181792567]
ビッグデータの一般化能力を近似した小さなデータについて学ぶことは、AIの究極の目的の1つである。
この調査はPACフレームワークの下でのアクティブサンプリング理論に従い、小さなデータにおける学習の一般化誤差とラベルの複雑さを分析した。
効率的な小さなデータ表現の恩恵を受けるかもしれない複数のデータアプリケーションについて調査する。
論文 参考訳(メタデータ) (2022-07-29T02:34:19Z) - Parsimonious Inference [0.0]
parsimonious inferenceは任意のアーキテクチャ上の推論の情報理論的な定式化である。
提案手法は,効率的な符号化と巧妙なサンプリング戦略を組み合わせて,クロスバリデーションを伴わない予測アンサンブルを構築する。
論文 参考訳(メタデータ) (2021-03-03T04:13:14Z) - Towards Optimally Efficient Tree Search with Deep Learning [76.64632985696237]
本稿では,線形モデルから信号整数を推定する古典整数最小二乗問題について検討する。
問題はNPハードであり、信号処理、バイオインフォマティクス、通信、機械学習といった様々な応用でしばしば発生する。
本稿では, 深いニューラルネットワークを用いて, 単純化されたメモリバウンドA*アルゴリズムの最適推定を推定し, HATSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-07T08:00:02Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Comparative Analysis of Extreme Verification Latency Learning Algorithms [3.3439097577935213]
本稿では、EVLアルゴリズムのいくつかの弱点と強みを指摘するための総合的な調査と比較分析を行う。
この研究は、この分野の既存のアルゴリズムのレビューを研究コミュニティに提供するための、非常に最初の取り組みである。
論文 参考訳(メタデータ) (2020-11-26T16:34:56Z) - Optimization for Supervised Machine Learning: Randomized Algorithms for
Data and Parameters [10.279748604797911]
機械学習とデータサイエンスの主な問題は、最適化問題として日常的にモデル化され、最適化アルゴリズムによって解決される。
データ量の増加と、これらの不条件最適化タスクを定式化するために使用される統計モデルのサイズと複雑さにより、これらの課題に対処できる新しい効率的なアルゴリズムが必要である。
この論文では,これらの課題をそれぞれ異なる方法で処理する。ビッグデータ問題に効率的に対処するために,各イテレーションでトレーニングデータの小さなランダムサブセットのみを検査する新しい手法を開発する。
大きなモデル問題に対処するために、イテレーション毎に更新されるメソッドを開発します。
論文 参考訳(メタデータ) (2020-08-26T21:15:18Z) - FedPD: A Federated Learning Framework with Optimal Rates and Adaptivity
to Non-IID Data [59.50904660420082]
フェデレートラーニング(FL)は、分散データから学ぶための一般的なパラダイムになっています。
クラウドに移行することなく、さまざまなデバイスのデータを効果的に活用するために、Federated Averaging(FedAvg)などのアルゴリズムでは、"Computation then aggregate"(CTA)モデルを採用している。
論文 参考訳(メタデータ) (2020-05-22T23:07:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。