論文の概要: The No Free Lunch Theorem, Kolmogorov Complexity, and the Role of Inductive Biases in Machine Learning
- arxiv url: http://arxiv.org/abs/2304.05366v3
- Date: Fri, 7 Jun 2024 19:56:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 05:58:24.458873
- Title: The No Free Lunch Theorem, Kolmogorov Complexity, and the Role of Inductive Biases in Machine Learning
- Title(参考訳): No Free Lunch Theorem, Kolmogorov Complexity, and the Role of Inductive Biases in Machine Learning
- Authors: Micah Goldblum, Marc Finzi, Keefer Rowan, Andrew Gordon Wilson,
- Abstract要約: ニューラルネットワークモデルは、Kolmogorov複雑性を使って形式化された、同じ好みを共有している、と我々は主張する。
実験の結果、事前訓練された言語モデルでも、低複雑さのシーケンスを生成するのが好まれることがわかった。
これらの観察は、ますます小さな機械学習モデルで異なるように見える問題を統一する深層学習の傾向を正当化する。
- 参考スコア(独自算出の注目度): 80.1018596899899
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: No free lunch theorems for supervised learning state that no learner can solve all problems or that all learners achieve exactly the same accuracy on average over a uniform distribution on learning problems. Accordingly, these theorems are often referenced in support of the notion that individual problems require specially tailored inductive biases. While virtually all uniformly sampled datasets have high complexity, real-world problems disproportionately generate low-complexity data, and we argue that neural network models share this same preference, formalized using Kolmogorov complexity. Notably, we show that architectures designed for a particular domain, such as computer vision, can compress datasets on a variety of seemingly unrelated domains. Our experiments show that pre-trained and even randomly initialized language models prefer to generate low-complexity sequences. Whereas no free lunch theorems seemingly indicate that individual problems require specialized learners, we explain how tasks that often require human intervention such as picking an appropriately sized model when labeled data is scarce or plentiful can be automated into a single learning algorithm. These observations justify the trend in deep learning of unifying seemingly disparate problems with an increasingly small set of machine learning models.
- Abstract(参考訳): 教師付き学習のための無料ランチ定理は、学習者が全ての問題を解くことができず、学習者が学習上の一様分布に対して平均的に全く同じ精度を達成できないことを述べています。
したがって、これらの定理は、個々の問題は特別に調整された帰納的バイアスを必要とするという概念を支持するためにしばしば言及される。
事実上、全ての一様サンプルデータセットは複雑さが高いが、現実の問題は不均等に低複雑さのデータを生成し、ニューラルネットワークモデルがコルモゴロフ複雑性を用いて形式化された同じ好みを共有していると論じる。
特に、コンピュータビジョンのような特定のドメイン用に設計されたアーキテクチャは、さまざまな無関係な領域でデータセットを圧縮できることを示す。
実験の結果,事前学習およびランダムに初期化される言語モデルでは,低複雑さのシーケンスを生成することが好ましいことがわかった。
フリーランチの定理は個々の問題に特別な学習者が要ることを示すものではないが、ラベル付きデータが乏しい場合や豊富でない場合など、人間の介入を必要とするタスクを1つの学習アルゴリズムに自動化する方法を説明する。
これらの観察は、ますます小さな機械学習モデルで異なるように見える問題を統一する深層学習の傾向を正当化する。
関連論文リスト
- Learning Divergence Fields for Shift-Robust Graph Representations [73.11818515795761]
本研究では,相互依存データに対する問題に対して,学習可能な分散場を持つ幾何学的拡散モデルを提案する。
因果推論によって新たな学習目標が導出され、ドメイン間で無神経な相互依存の一般化可能なパターンを学習するためのモデルが導出される。
論文 参考訳(メタデータ) (2024-06-07T14:29:21Z) - Many tasks make light work: Learning to localise medical anomalies from
multiple synthetic tasks [2.912977051718473]
シングルクラスモデリングとアウト・オブ・ディストリビューション検出への関心が高まっている。
完全な教師付き機械学習モデルは、トレーニングに含まれていないクラスを確実に識別することはできない。
我々は,複数の視覚的に識別可能な合成異常学習タスクを,トレーニングと検証の両方に利用している。
論文 参考訳(メタデータ) (2023-07-03T09:52:54Z) - Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。
本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。
我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文 参考訳(メタデータ) (2022-05-25T17:37:08Z) - Generalization of Neural Combinatorial Solvers Through the Lens of
Adversarial Robustness [68.97830259849086]
ほとんどのデータセットは単純なサブプロブレムのみをキャプチャし、おそらくは突発的な特徴に悩まされる。
本研究では, 局所的な一般化特性である対向ロバスト性について検討し, 厳密でモデル固有な例と突発的な特徴を明らかにする。
他のアプリケーションとは異なり、摂動モデルは知覚できないという主観的な概念に基づいて設計されているため、摂動モデルは効率的かつ健全である。
驚くべきことに、そのような摂動によって、十分に表現力のあるニューラルソルバは、教師あり学習で共通する正確さと悪質さのトレードオフの限界に悩まされない。
論文 参考訳(メタデータ) (2021-10-21T07:28:11Z) - A Framework for Machine Learning of Model Error in Dynamical Systems [7.384376731453594]
データから動的システムを特定するために,機械的アプローチと機械学習アプローチを混在させる統一フレームワークを提案する。
モデルエラーがメモリレスであり、大きなメモリを持つ問題に対して、連続時間と離散時間の両方で問題を提起した。
ハイブリッド手法は、データ飢餓、モデルの複雑さの要求、全体的な予測性能において、データ駆動アプローチよりも大幅に優れています。
論文 参考訳(メタデータ) (2021-07-14T12:47:48Z) - High-dimensional separability for one- and few-shot learning [58.8599521537]
この作業は、実用的な質問、人工知能(AI)エラーの修正によって進められている。
特殊な外部デバイスである修正器が開発されている。従来のAIシステムを変更することなく、迅速かつ非イテレーティブなシステム修正を提供する必要がある。
AIシステムの新しいマルチコレクタが提示され、深層畳み込みニューラルネットワークによってエラーを予測し、新しいクラスのオブジェクトを学習する例が紹介される。
論文 参考訳(メタデータ) (2021-06-28T14:58:14Z) - From Undecidability of Non-Triviality and Finiteness to Undecidability
of Learnability [0.0]
新たに提案したモデルが実際にデータから学べるかどうかを厳格に評価するための汎用的な手順は存在しないことを示す。
PACバイナリ分類、一様および普遍的なオンライン学習、教師と教師の相互作用による正確な学習では、学習性は一般に決定不可能である。
機械学習モデルが成功するかどうかを決定するのに、すべてに適したアルゴリズムは存在しない。
論文 参考訳(メタデータ) (2021-06-02T18:00:04Z) - When is Memorization of Irrelevant Training Data Necessary for
High-Accuracy Learning? [53.523017945443115]
我々は,十分な精度のトレーニングアルゴリズムが,予測モデルにおいて,そのトレーニング例の大規模サブセットに関する情報を本質的にすべてエンコードしなければならない自然予測問題を記述する。
私たちの結果は、トレーニングアルゴリズムや学習に使用されるモデルのクラスに依存しません。
論文 参考訳(メタデータ) (2020-12-11T15:25:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。