論文の概要: Generalization and Overfitting in Matrix Product State Machine Learning
Architectures
- arxiv url: http://arxiv.org/abs/2208.04372v1
- Date: Mon, 8 Aug 2022 19:13:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-10 13:15:39.858424
- Title: Generalization and Overfitting in Matrix Product State Machine Learning
Architectures
- Title(参考訳): 行列積状態機械学習アーキテクチャの一般化とオーバーフィッティング
- Authors: Artem Strashko, E. Miles Stoudenmire
- Abstract要約: 我々はMPSで正確にモデル化できる人工データを構築し、異なる数のパラメータでモデルを訓練する。
我々は1次元データに対するモデルオーバーフィッティングを観察するが、より複雑なデータオーバーフィッティングでは重要度が低く、MNIST画像データではオーバーフィッティングのシグネチャは見つからない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While overfitting and, more generally, double descent are ubiquitous in
machine learning, increasing the number of parameters of the most widely used
tensor network, the matrix product state (MPS), has generally lead to monotonic
improvement of test performance in previous studies. To better understand the
generalization properties of architectures parameterized by MPS, we construct
artificial data which can be exactly modeled by an MPS and train the models
with different number of parameters. We observe model overfitting for
one-dimensional data, but also find that for more complex data overfitting is
less significant, while with MNIST image data we do not find any signatures of
overfitting. We speculate that generalization properties of MPS depend on the
properties of data: with one-dimensional data (for which the MPS ansatz is the
most suitable) MPS is prone to overfitting, while with more complex data which
cannot be fit by MPS exactly, overfitting may be much less significant.
- Abstract(参考訳): オーバーフィッティングや、より一般的には二重降下は機械学習においてユビキタスであるが、最も広く使われているテンソルネットワークのパラメータ数の増加、行列積状態(mps)は、従来の研究における単調なテスト性能の向上につながる。
MPSによってパラメータ化されるアーキテクチャの一般化特性をよりよく理解するために、MPSによって正確にモデル化できる人工データを構築し、異なる数のパラメータでモデルを訓練する。
我々は1次元データに対するモデルオーバーフィッティングを観察するが、より複雑なデータオーバーフィッティングでは重要度が低く、MNIST画像データではオーバーフィッティングのシグネチャは見つからない。
1次元データ(MPSアンサッツが最も適している)では、MPSはオーバーフィットしがちであるが、MPSに正確に適合できないより複雑なデータでは、オーバーフィットははるかに重要でないかもしれない。
関連論文リスト
- Tensor Polynomial Additive Model [40.30621617188693]
TPAMは、加法モデルの固有の解釈可能性、透明な意思決定、意味のある特徴値の抽出を保存している。
精度を最大30%向上し、圧縮速度を最大5倍向上させ、良好な解釈性を維持することができる。
論文 参考訳(メタデータ) (2024-06-05T06:23:11Z) - The Underlying Scaling Laws and Universal Statistical Structure of Complex Datasets [2.07180164747172]
実世界の複雑なデータセットと人工的に生成されたデータセットの両方に現れる普遍的特性について検討する。
我々のアプローチは、データを物理系に類似させ、統計物理学やランダム行列理論(RMT)のツールを用いて、その基盤となる構造を明らかにすることである。
論文 参考訳(メタデータ) (2023-06-26T18:01:47Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Multi-Metric AutoRec for High Dimensional and Sparse User Behavior Data
Prediction [10.351592131677018]
代表的AutoRecに基づくマルチメトリックAutoRec(MMA)を提案する。
MMAは、分散された距離空間の集合から多次元の向きを楽しみ、ユーザデータの包括的な表現を実現する。
MMAは、観測されていないユーザの行動データを予測する際に、他の7つの最先端モデルより優れている。
論文 参考訳(メタデータ) (2022-12-20T12:28:07Z) - Towards a mathematical understanding of learning from few examples with
nonlinear feature maps [68.8204255655161]
トレーニングセットがわずか数個のデータポイントから構成されるデータ分類の問題を考える。
我々は、AIモデルの特徴空間の幾何学、基礎となるデータ分布の構造、モデルの一般化能力との間の重要な関係を明らかにする。
論文 参考訳(メタデータ) (2022-11-07T14:52:58Z) - RENs: Relevance Encoding Networks [0.0]
本稿では,遅延空間に先行する自動相対性決定(ARD)を用いて,データ固有のボトルネック次元を学習する新しい確率的VOEベースのフレームワークであるrelevance encoding network (RENs)を提案する。
提案モデルは,サンプルの表現や生成品質を損なうことなく,関連性のあるボトルネック次元を学習することを示す。
論文 参考訳(メタデータ) (2022-05-25T21:53:48Z) - Learning from few examples with nonlinear feature maps [68.8204255655161]
我々はこの現象を探求し、AIモデルの特徴空間の次元性、データ分散の非退化、モデルの一般化能力の間の重要な関係を明らかにする。
本分析の主な推力は、元のデータを高次元および無限次元空間にマッピングする非線形特徴変換が結果のモデル一般化能力に与える影響である。
論文 参考訳(メタデータ) (2022-03-31T10:36:50Z) - Evaluating natural language processing models with generalization
metrics that do not need access to any training or testing data [66.11139091362078]
本稿では,Hugingface から事前学習した大規模トランスフォーマーに対して,一般化指標を用いた最初のモデル選択結果を提案する。
ニッチな状況にもかかわらず、ヘビーテール(HT)の観点から派生したメトリクスは、特にNLPタスクにおいて有用である。
論文 参考訳(メタデータ) (2022-02-06T20:07:35Z) - Post-mortem on a deep learning contest: a Simpson's paradox and the
complementary roles of scale metrics versus shape metrics [61.49826776409194]
我々は、ニューラルネットワーク(NN)モデルの一般化精度を予測するために、コンテストで公に利用可能にされたモデルのコーパスを分析する。
メトリクスが全体としてよく機能するが、データのサブパーティションではあまり機能しない。
本稿では,データに依存しない2つの新しい形状指標と,一連のNNのテスト精度の傾向を予測できるデータ依存指標を提案する。
論文 参考訳(メタデータ) (2021-06-01T19:19:49Z) - Rank-R FNN: A Tensor-Based Learning Model for High-Order Data
Classification [69.26747803963907]
Rank-R Feedforward Neural Network (FNN)は、そのパラメータにCanonical/Polyadic分解を課すテンソルベースの非線形学習モデルである。
まず、入力をマルチリニアアレイとして扱い、ベクトル化の必要性を回避し、すべてのデータ次元に沿って構造情報を十分に活用することができる。
Rank-R FNNの普遍的な近似と学習性の特性を確立し、実世界のハイパースペクトルデータセットのパフォーマンスを検証する。
論文 参考訳(メタデータ) (2021-04-11T16:37:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。