論文の概要: Sequential Group Composition: A Window into the Mechanics of Deep Learning
- arxiv url: http://arxiv.org/abs/2602.03655v1
- Date: Tue, 03 Feb 2026 15:36:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.546189
- Title: Sequential Group Composition: A Window into the Mechanics of Deep Learning
- Title(参考訳): 逐次グループ構成:ディープラーニングの力学の窓
- Authors: Giovanni Luca Marchetti, Daniel Kunin, Adele Myers, Francisco Acosta, Nina Miolane,
- Abstract要約: シーケンシャルなグループ構成タスクを紹介します。
ネットワークはこのタスクを一度にグループの既約表現として学習する。
このスケーリングを劇的に改善するために、より深いモデルがタスクの連想性をいかに活用しているかを示す。
- 参考スコア(独自算出の注目度): 15.349155287234012
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How do neural networks trained over sequences acquire the ability to perform structured operations, such as arithmetic, geometric, and algorithmic computation? To gain insight into this question, we introduce the sequential group composition task. In this task, networks receive a sequence of elements from a finite group encoded in a real vector space and must predict their cumulative product. The task can be order-sensitive and requires a nonlinear architecture to be learned. Our analysis isolates the roles of the group structure, encoding statistics, and sequence length in shaping learning. We prove that two-layer networks learn this task one irreducible representation of the group at a time in an order determined by the Fourier statistics of the encoding. These networks can perfectly learn the task, but doing so requires a hidden width exponential in the sequence length $k$. In contrast, we show how deeper models exploit the associativity of the task to dramatically improve this scaling: recurrent neural networks compose elements sequentially in $k$ steps, while multilayer networks compose adjacent pairs in parallel in $\log k$ layers. Overall, the sequential group composition task offers a tractable window into the mechanics of deep learning.
- Abstract(参考訳): シーケンス上でトレーニングされたニューラルネットワークは、算術、幾何学、アルゴリズム計算といった構造化された操作を実行する能力を得るには、どうすればよいのか?
この問題に対する洞察を得るために、逐次グループ構成タスクを導入する。
このタスクでは、ネットワークは実ベクトル空間に符号化された有限群から要素列を受け取り、その累積を予測しなければならない。
タスクは順序に敏感であり、非線形アーキテクチャを学ぶ必要がある。
本分析では, グループ構造, エンコード統計, シーケンス長の役割を分離した。
符号化のフーリエ統計によって決定された順序で,2層ネットワークがこのタスクを同時に1つの既約表現で学習することを証明した。
これらのネットワークはタスクを完璧に学習できるが、それを行うにはシーケンス長が$k$の隠れ幅指数を必要とする。
繰り返しニューラルネットワークは$k$のステップで順次要素を合成し、マルチレイヤネットワークは$\log k$のレイヤで隣接するペアを並列に構成する。
全体として、シーケンシャルなグループ構成タスクは、深層学習の仕組みにトラクタブルな窓を提供する。
関連論文リスト
- Emergent Riemannian geometry over learning discrete computations on continuous manifolds [1.8665975431697432]
離散計算のシグネチャがニューラルネットワークの表現幾何学に現れることを示す。
我々は、異なる学習体制(リッチ対遅延)がメートル法と曲率構造を対比し、ネットワークが目に見えない入力に一般化する能力にどのように影響するかを実証する。
論文 参考訳(メタデータ) (2025-11-28T20:29:06Z) - Deep Lookup Network [76.66809324649154]
多くのリソース制限エッジデバイスでは、複雑な演算をルックアップテーブルを通じて計算し、計算コストを削減できる。
本稿では,ニューラルネットワーク構築の基本的な操作として使用できる汎用的で効率的な検索操作を提案する。
計算コストのかかる乗算演算をルックアップ演算に置き換えることで、画像分類、画像超解像、点クラウド分類タスクのためのルックアップネットワークを開発する。
論文 参考訳(メタデータ) (2025-09-17T03:31:41Z) - Scaling can lead to compositional generalization [6.654461784178872]
スケーリングデータとモデルサイズが構成一般化に繋がることを示す。
トレーニング分布がタスク空間を十分にカバーしている限り、これは異なるタスクエンコーディングにまたがることを示す。
ネットワークが構成的一般化に成功すれば、タスクの構成成分が隠れたアクティベーションから線形に復号化できることがわかった。
論文 参考訳(メタデータ) (2025-07-09T18:30:50Z) - Grokking Group Multiplication with Cosets [10.255744802963926]
アルゴリズムタスクは、ニューラルネットワークをエンドツーエンドに解釈するための実りあるテスト場であることが証明されている。
我々は、置換群$S_5$ と $S_6$ の算術を解き明かした一層ネットワークを完全にリバースエンジニアリングする。
我々は、モデル機構のリバースエンジニアリングについて述べ、我々の理論が回路の機能の忠実な記述であることを確認した。
論文 参考訳(メタデータ) (2023-12-11T18:12:18Z) - Provable Multi-Task Representation Learning by Two-Layer ReLU Neural Networks [69.38572074372392]
本稿では,複数タスクにおける非線形モデルを用いたトレーニング中に特徴学習が発生することを示す最初の結果を示す。
私たちのキーとなる洞察は、マルチタスク事前トレーニングは、通常タスク間で同じラベルを持つポイントを整列する表現を好む擬似コントラスト的損失を誘導するということです。
論文 参考訳(メタデータ) (2023-07-13T16:39:08Z) - How Deep Neural Networks Learn Compositional Data: The Random Hierarchy Model [47.617093812158366]
言語と画像の階層構造にインスパイアされた合成タスクのファミリーであるランダム階層モデルを紹介する。
深層ネットワークは、等価なグループを交換するために不変な内部表現を開発することでタスクを学習する。
この結果から, ネットワークは次元の呪いを克服し, 不変表現を構築できることが示唆された。
論文 参考訳(メタデータ) (2023-07-05T09:11:09Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Neural networks adapting to datasets: learning network size and topology [77.34726150561087]
ニューラルネットワークは、勾配に基づくトレーニングの過程で、そのサイズとトポロジの両方を学習できるフレキシブルなセットアップを導入します。
結果として得られるネットワークは、特定の学習タスクとデータセットに合わせたグラフの構造を持つ。
論文 参考訳(メタデータ) (2020-06-22T12:46:44Z) - Online Sequential Extreme Learning Machines: Features Combined From
Hundreds of Midlayers [0.0]
本稿では階層型オンラインシーケンシャル学習アルゴリズム(H-OS-ELM)を提案する。
アルゴリズムは、一定のブロックサイズまたは異なるブロックサイズでチャンクごとにチャンクを学習することができる。
論文 参考訳(メタデータ) (2020-06-12T00:50:04Z) - Adversarial Continual Learning [99.56738010842301]
本稿では,タスク不変およびタスク特化機能に対する不整合表現を学習するハイブリッド連続学習フレームワークを提案する。
本モデルでは,タスク固有のスキルの忘れを防止するためにアーキテクチャの成長と,共有スキルを維持するための経験的リプレイアプローチを組み合わせる。
論文 参考訳(メタデータ) (2020-03-21T02:08:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。