論文の概要: DDCL-INCRT: A Self-Organising Transformer with Hierarchical Prototype Structure (Theoretical Foundations)
- arxiv url: http://arxiv.org/abs/2604.01880v1
- Date: Thu, 02 Apr 2026 10:39:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.685647
- Title: DDCL-INCRT: A Self-Organising Transformer with Hierarchical Prototype Structure (Theoretical Foundations)
- Title(参考訳): DDCL-INCRT:階層型プロトタイプ構造を持つ自己組織化変換器(理論基礎)
- Authors: Giansalvo Cirrincione,
- Abstract要約: 本稿では,DDCL-INCRTについて紹介する。
主な理論的発見は、これらの2つのメカニズムが互いに強化していることである。
収束すると、ネットワークは表現的粒度によって順序付けられたヘッドの階層に自己組織化される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern neural networks of the transformer family require the practitioner to decide, before training begins, how many attention heads to use, how deep the network should be, and how wide each component should be. These decisions are made without knowledge of the task, producing architectures that are systematically larger than necessary: empirical studies find that a substantial fraction of heads and layers can be removed after training without performance loss. This paper introduces DDCL-INCRT, an architecture that determines its own structure during training. Two complementary ideas are combined. The first, DDCL (Deep Dual Competitive Learning), replaces the feedforward block with a dictionary of learned prototype vectors representing the most informative directions in the data. The prototypes spread apart automatically, driven by the training objective, without explicit regularisation. The second, INCRT (Incremental Transformer), controls the number of heads: starting from one, it adds a new head only when the directional information uncaptured by existing heads exceeds a threshold. The main theoretical finding is that these two mechanisms reinforce each other: each new head amplifies prototype separation, which in turn raises the signal triggering the next addition. At convergence, the network self-organises into a hierarchy of heads ordered by representational granularity. This hierarchical structure is proved to be unique and minimal, the smallest architecture sufficient for the task, under the stated conditions. Formal guarantees of stability, convergence, and pruning safety are established throughout. The architecture is not something one designs. It is something one derives.
- Abstract(参考訳): トランスフォーマーファミリーの現代のニューラルネットワークは、トレーニングを開始する前に、どれだけの注意を向けるべきか、ネットワークの深さ、各コンポーネントの幅を判断する必要がある。
これらの決定はタスクを知らずに行われ、必要なものよりも体系的に大きいアーキテクチャを生成する。
本稿では,DDCL-INCRTについて紹介する。
2つの相補的な考えが組み合わさっている。
最初のDDCL(Deep Dual Competitive Learning)は、フィードフォワードブロックを、データの中で最も情報に富む方向を表す学習されたプロトタイプベクトルの辞書に置き換える。
プロトタイプは、トレーニング目標によって駆動され、明示的な正規化を伴わずに、自動的に分散した。
第二のINCRT(Incremental Transformer)は、頭数を制御する: 1つから、既存の頭でキャプチャされていない方向情報がしきい値を超えた場合にのみ、新しい頭を追加する。
主な理論的な発見は、これらの2つのメカニズムが互いに強化され、それぞれの新しいヘッドがプロトタイプ分離を増幅し、次の追加をトリガーするシグナルが引き起こされる。
収束すると、ネットワークは表現的粒度によって順序付けられたヘッドの階層に自己組織化される。
この階層構造は、与えられた条件の下で、タスクに十分な最小限のアーキテクチャである、ユニークで最小限であることが証明されている。
安定性、収束性、プルーニング安全性の形式的な保証が全土で確立されている。
アーキテクチャは設計するものではありません。
それは派生したものだ。
関連論文リスト
- Bearing Syntactic Fruit with Stack-Augmented Neural Networks [59.49467149799849]
スタック拡張ニューラルネットワークは、標準的なアーキテクチャよりも、人間の言語習得の正確なモデルであることを示す。
また、階層的一般化を改善するスタックRNNアーキテクチャの修正も提案する。
論文 参考訳(メタデータ) (2025-11-05T15:30:58Z) - What One Cannot, Two Can: Two-Layer Transformers Provably Represent Induction Heads on Any-Order Markov Chains [64.31313691823088]
インコンテキスト学習(ICL)は、入力コンテキストからの情報を活用することで、訓練されたモデルが新しいタスクに適応することを学習するトランスフォーマーの能力である。
1層に1つの頭を持つ2層トランスは、実際に任意の条件k-gramを表現可能であることを示す。
論文 参考訳(メタデータ) (2025-08-10T07:03:01Z) - Unified CNNs and transformers underlying learning mechanism reveals multi-head attention modus vivendi [0.0]
畳み込みニューラルネットワーク(CNN)は、層に沿って進行する入力画像の短距離相関を評価する。
視覚変換器(ViT)アーキテクチャは、完全に接続された層からなる繰り返し変換器エンコーダを用いて、長距離相関を評価する。
本研究は,CNNとViTアーキテクチャが基盤となる学習機構の統一に由来することを示す。
論文 参考訳(メタデータ) (2025-01-22T14:19:48Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Structural Credit Assignment with Coordinated Exploration [0.0]
構造的信用割当の改善を目的とした方法は、一般的に2つのカテゴリに分類される。
本稿では,ボルツマンマシンやリカレントネットワークを協調探索に用いることを提案する。
実験結果から, 協調探査は訓練速度において, 独立探索をはるかに上回っていることがわかった。
論文 参考訳(メタデータ) (2023-07-25T04:55:45Z) - Dynamic Perceiver for Efficient Visual Recognition [87.08210214417309]
特徴抽出手順と早期分類タスクを分離する動的知覚器(Dyn-Perceiver)を提案する。
特徴ブランチは画像の特徴を抽出し、分類ブランチは分類タスクに割り当てられた遅延コードを処理する。
早期出口は分類枝に限られており、低レベルの特徴において線形分離性は不要である。
論文 参考訳(メタデータ) (2023-06-20T03:00:22Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - End to End Binarized Neural Networks for Text Classification [4.046236197219608]
目的分類タスクのためのエンドツーエンドのバイナライズニューラルネットワークアーキテクチャを提案する。
提案したアーキテクチャは、標準的な意図分類データセットにおける最先端の結果に匹敵する。
論文 参考訳(メタデータ) (2020-10-11T11:21:53Z) - Dual-constrained Deep Semi-Supervised Coupled Factorization Network with
Enriched Prior [80.5637175255349]
本稿では、DS2CF-Netと呼ばれる、拡張された事前制約付きDual-Constrained Deep Semi-Supervised Coupled Factorization Networkを提案する。
隠れた深い特徴を抽出するために、DS2CF-Netは、深い構造と幾何学的な構造に制約のあるニューラルネットワークとしてモデル化される。
我々のネットワークは、表現学習とクラスタリングのための最先端の性能を得ることができる。
論文 参考訳(メタデータ) (2020-09-08T13:10:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。