論文の概要: Deep Networks Learn Deep Hierarchical Models
- arxiv url: http://arxiv.org/abs/2601.00455v1
- Date: Thu, 01 Jan 2026 19:44:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.45783
- Title: Deep Networks Learn Deep Hierarchical Models
- Title(参考訳): ディープ・ネットワークは階層的なモデルを学ぶ
- Authors: Amit Daniely,
- Abstract要約: 我々は、$n$ラベルによる教師付き学習を検討し、階層的残差ネットワークが階層モデルのクラスを効率的に学習可能であることを示す。
人間の教師の存在は、階層構造が本質的に利用可能であるという仮説を支持する。
- 参考スコア(独自算出の注目度): 9.594432031144718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider supervised learning with $n$ labels and show that layerwise SGD on residual networks can efficiently learn a class of hierarchical models. This model class assumes the existence of an (unknown) label hierarchy $L_1 \subseteq L_2 \subseteq \dots \subseteq L_r = [n]$, where labels in $L_1$ are simple functions of the input, while for $i > 1$, labels in $L_i$ are simple functions of simpler labels. Our class surpasses models that were previously shown to be learnable by deep learning algorithms, in the sense that it reaches the depth limit of efficient learnability. That is, there are models in this class that require polynomial depth to express, whereas previous models can be computed by log-depth circuits. Furthermore, we suggest that learnability of such hierarchical models might eventually form a basis for understanding deep learning. Beyond their natural fit for domains where deep learning excels, we argue that the mere existence of human ``teachers" supports the hypothesis that hierarchical structures are inherently available. By providing granular labels, teachers effectively reveal ``hints'' or ``snippets'' of the internal algorithms used by the brain. We formalize this intuition, showing that in a simplified model where a teacher is partially aware of their internal logic, a hierarchical structure emerges that facilitates efficient learnability.
- Abstract(参考訳): 我々は、$n$ラベルによる教師付き学習を検討し、残余ネットワーク上のレイヤワイズSGDが階層モデルのクラスを効率的に学習できることを示す。
このモデルクラスは、(未知の)ラベル階層である$L_1 \subseteq L_2 \subseteq \dots \subseteq L_r = [n]$の存在を仮定する。
我々のクラスは、より効率的な学習可能性の深さ限界に達するという意味で、これまでディープラーニングアルゴリズムによって学習可能であることが示されていたモデルを超えている。
つまり、このクラスには多項式深度を必要とするモデルがあるが、以前のモデルは対数深度回路で計算できる。
さらに,このような階層モデルの学習性は,最終的には深層学習の基盤となる可能性が示唆された。
深層学習が優れている領域に自然に適合するだけでなく、人間の「教師」の存在は階層構造が本質的に利用可能であるという仮説を支持していると論じる。
詳細なラベルを提供することで、教師は脳が使用する内部アルゴリズムの `hints' または ``snippets' を効果的に明らかにする。
この直観を形式化し、教師が内部論理を部分的に認識する単純化モデルにおいて、効率的な学習を容易にする階層構造が現れることを示す。
関連論文リスト
- Learning with the $p$-adics [26.431600220740354]
我々は、$mathbbR$, $mathbbQ_p$, $mathbbQ_p$の超測度および非アルキメデス空間の代替として、根本的に異なる分野の適合性について研究する。
p$-adicsの階層構造と無限文字列としての解釈は、コード理論と階層的表現学習にとって魅力的なツールである。
論文 参考訳(メタデータ) (2025-12-27T19:40:42Z) - Neural Networks Learn Generic Multi-Index Models Near Information-Theoretic Limit [66.20349460098275]
一般ガウス多次元モデル $f(boldsymbolx)=g(boldsymbolUboldsymbolx)$ の勾配降下学習を隠蔽部分空間 $boldsymbolUin mathbbRrtimes d$ で研究する。
リンク関数上の一般的な非退化仮定の下では、層次勾配勾配勾配によって訓練された標準的な2層ニューラルネットワークは、$o_d(1)$テスト誤差でターゲットを不可知的に学習できることを示す。
論文 参考訳(メタデータ) (2025-11-19T04:46:47Z) - Beyond Softmax: A Natural Parameterization for Categorical Random Variables [61.709831225296305]
階層的なバイナリ分割のシーケンスで構成される関数である$textitcatnat$関数を紹介します。
実験により,提案した関数は学習効率を向上し,一貫した試験性能を特徴とするモデルが得られることを示した。
論文 参考訳(メタデータ) (2025-09-29T12:55:50Z) - When Attention Collapses: How Degenerate Layers in LLMs Enable Smaller, Stronger Models [61.363259848264725]
Inherituneは、より小さく、より効率的な言語モデルを構築するための、シンプルで効果的なトレーニングレシピである。
Inherituneのトレーニングしたモデルは、レイヤーが大幅に少ないにもかかわらず、より大きなモデルにマッチしたり、性能を上回ります。
論文 参考訳(メタデータ) (2024-04-12T17:53:34Z) - Logical Entity Representation in Knowledge-Graphs for Differentiable
Rule Learning [71.05093203007357]
本稿では,知識グラフ内のエンティティのコンテキスト情報をエンコードするための論理エンティティ・リプレゼンテーション(LERP)を提案する。
LERPは、エンティティの隣接部分グラフ上の確率論的論理関数のベクトルとして設計されている。
我々のモデルは知識グラフ補完において他のルール学習法よりも優れており、最先端のブラックボックス法に匹敵する、あるいは優れている。
論文 参考訳(メタデータ) (2023-05-22T05:59:22Z) - Self-Attention Networks Can Process Bounded Hierarchical Languages [24.75432474021856]
自己アテンションネットワークが$mathsfDyck_k, D$, $mathsfDyck_k, D$を処理できることを証明する。
実験により、$mathsfDyck_kでトレーニングされた自己注意ネットワークは、ほぼ完全な精度で、より長い入力に一般化されることが示された。
論文 参考訳(メタデータ) (2021-05-24T06:42:58Z) - Backward Feature Correction: How Deep Learning Performs Deep
(Hierarchical) Learning [66.05472746340142]
本稿では,SGD による階層的学習 _efficiently_ と _automatically_ を学習目標として,多層ニューラルネットワークがどのように行うかを分析する。
我々は、下位機能のエラーを上位層と共にトレーニングする際に自動的に修正できる"後方特徴補正"と呼ばれる新しい原則を確立する。
論文 参考訳(メタデータ) (2020-01-13T17:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。