論文の概要: Scaling Laws with Hidden Structure
- arxiv url: http://arxiv.org/abs/2411.01375v1
- Date: Sat, 02 Nov 2024 22:32:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:51:40.520111
- Title: Scaling Laws with Hidden Structure
- Title(参考訳): 隠れ構造を用いたスケーリング法則
- Authors: Charles Arnald, Clement Berenfeld, Simon Rosenberg, Vivien Cabannes,
- Abstract要約: 近年の進歩は、テキストと画像データがそのような隠された構造を含んでいることを示唆しており、次元の呪いを和らげるのに役立つ。
本稿では,ニューラルネットワークが実際にそのような隠された因子構造を活用できるかどうかを検証するための制御された実験枠組みを提案する。
これらの潜在パターンを利用して離散分布をより効率的に学習し、モデルサイズ、隠れ分解、精度をリンクするスケーリング法則を導出することを発見した。
- 参考スコア(独自算出の注目度): 2.474908349649168
- License:
- Abstract: Statistical learning in high-dimensional spaces is challenging without a strong underlying data structure. Recent advances with foundational models suggest that text and image data contain such hidden structures, which help mitigate the curse of dimensionality. Inspired by results from nonparametric statistics, we hypothesize that this phenomenon can be partially explained in terms of decomposition of complex tasks into simpler subtasks. In this paper, we present a controlled experimental framework to test whether neural networks can indeed exploit such ``hidden factorial structures.'' We find that they do leverage these latent patterns to learn discrete distributions more efficiently, and derive scaling laws linking model sizes, hidden factorizations, and accuracy. We also study the interplay between our structural assumptions and the models' capacity for generalization.
- Abstract(参考訳): 高次元空間における統計的学習は、強力な基盤となるデータ構造なしでは困難である。
基礎モデルによる最近の進歩は、テキストと画像データがそのような隠された構造を含んでいることを示唆し、次元の呪いを和らげる。
非パラメトリック統計学の結果から着想を得たこの現象は、複雑なタスクを単純なサブタスクに分解することで部分的に説明できるという仮説を立てた。
本稿では,ニューラルネットワークがそのような「隠された因子構造」を実際に活用できるかどうかを検証するための制御された実験フレームワークを提案する。
このような潜在パターンを活用して、離散分布をより効率的に学習し、モデルサイズ、隠れ因数分解、精度をリンクするスケーリング法則を導出しています。
また、構造的仮定と一般化のためのモデルの能力との間の相互作用についても検討する。
関連論文リスト
- Probing the Latent Hierarchical Structure of Data via Diffusion Models [47.56642214162824]
拡散モデルを用いた実験は,データの潜伏構造を探索するための有望なツールであることを示す。
我々はこの予測を、最先端拡散モデルを用いてテキストと画像の両方で確認する。
以上の結果から,潜在変数がデータにどのように現れるかを示し,これらの影響を実データで測定する方法を確立した。
論文 参考訳(メタデータ) (2024-10-17T17:08:39Z) - Shallow diffusion networks provably learn hidden low-dimensional structure [17.563546018565468]
拡散に基づく生成モデルは、複雑なターゲット分布からサンプルを学習するための強力なフレームワークを提供する。
これらのモデルは、低次元構造の単純な形式に確実に適応し、従って次元性の呪いを避けることが示される。
この結果と最近の拡散モデルによるサンプリング解析を組み合わせることで,構造化分布からサンプルを学習するためのエンドツーエンドのサンプル複雑性を実現する。
論文 参考訳(メタデータ) (2024-10-15T04:55:56Z) - ComboStoc: Combinatorial Stochasticity for Diffusion Generative Models [65.82630283336051]
拡散生成モデルの既存のトレーニングスキームにより,次元と属性の組み合わせによって区切られた空間が十分に標本化されていないことを示す。
構造を完全に活用するプロセスを構築し,ComboStocという名前でこの問題に対処する。
論文 参考訳(メタデータ) (2024-05-22T15:23:10Z) - Bayesian Semi-structured Subspace Inference [0.0]
半構造回帰モデルは、解釈可能な構造と複雑な非構造的特徴効果の合同モデリングを可能にする。
部分空間推論を用いた半構造化回帰モデルに対するベイズ近似を提案する。
提案手法は,シミュレーションおよび実世界のデータセット間での競合予測性能を示す。
論文 参考訳(メタデータ) (2024-01-23T18:15:58Z) - Homological Convolutional Neural Networks [4.615338063719135]
本稿では,トポロジ的に制約されたネットワーク表現を通じて,データ構造構造を利用した新しいディープラーニングアーキテクチャを提案する。
5つの古典的な機械学習モデルと3つのディープラーニングモデルに対して、18のベンチマークデータセットでモデルをテストします。
論文 参考訳(メタデータ) (2023-08-26T08:48:51Z) - Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。
本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。
我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文 参考訳(メタデータ) (2022-05-25T17:37:08Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Low-Rank Constraints for Fast Inference in Structured Models [110.38427965904266]
この研究は、大規模構造化モデルの計算とメモリの複雑さを低減するための単純なアプローチを示す。
言語モデリング,ポリフォニック・ミュージック・モデリング,教師なし文法帰納法,ビデオ・モデリングのためのニューラルパラメータ構造モデルを用いた実験により,我々の手法は大規模状態空間における標準モデルの精度と一致することを示した。
論文 参考訳(メタデータ) (2022-01-08T00:47:50Z) - Structural Causal Models Are (Solvable by) Credal Networks [70.45873402967297]
因果推論は、干潟網の更新のための標準的なアルゴリズムによって得ることができる。
この貢献は, 干潟ネットワークによる構造因果モデルを表現するための体系的なアプローチと見なされるべきである。
実験により, 実規模問題における因果推論には, クレーダルネットワークの近似アルゴリズムがすぐに利用できることがわかった。
論文 参考訳(メタデータ) (2020-08-02T11:19:36Z) - Generalising Recursive Neural Models by Tensor Decomposition [12.069862650316262]
テンソル型定式化を利用した構造文脈のモデルアグリゲーションに対する一般的なアプローチを提案する。
パラメータ空間の大きさの指数関数的成長は、タッカー分解に基づく近似によって制御できることを示す。
これにより、隠れたサイズ、計算複雑性、モデル一般化によって制御される符号化の表現性の間のトレードオフを効果的に制御できる。
論文 参考訳(メタデータ) (2020-06-17T17:28:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。