論文の概要: INCRT: An Incremental Transformer That Determines Its Own Architecture
- arxiv url: http://arxiv.org/abs/2604.10703v1
- Date: Sun, 12 Apr 2026 15:56:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.182351
- Title: INCRT: An Incremental Transformer That Determines Its Own Architecture
- Title(参考訳): INCRT: 独自のアーキテクチャを決定するインクリメンタルトランスフォーマー
- Authors: Giansalvo Cirrincione,
- Abstract要約: INCRT(Incremental Transformer)は、トレーニング中に独自の構造を決定するアーキテクチャである。
各成長決定は、オンライン計算可能な1つの幾何学量によって駆動される。
SARS-CoV-2の変種分類とSST-2の感情分析の実験は、両方の結果を確認した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer architectures are designed by trial and error: the number of attention heads, the depth, and the head size are fixed before training begins, with no mathematical principle to guide the choice. The result is systematic structural redundancy -- between half and four-fifths of all heads in a trained model can be removed without measurable loss -- because the architecture allocates capacity without reference to the actual requirements of the task.This paper introduces INCRT (Incremental Transformer), an architecture that determines its own structure during training. Starting from a single head, INCRT adds one attention head at a time whenever its current configuration is provably insufficient, and prunes heads that have become redundant. Each growth decision is driven by a single, online-computable geometric quantity derived from the task's directional structure, requiring no separate validation phase and no hand-tuned schedule. Two theorems form the theoretical backbone. The first (homeostatic convergence) establishes that the system always reaches a finite stopping configuration that is simultaneously minimal (no redundant heads) and sufficient (no uncaptured directional energy above the threshold). The second (compressed-sensing analogy) provides a geometric upper bound on the number of heads that this configuration can contain, as a function of the spectral complexity of the task. Experiments on SARS-CoV-2 variant classification and SST-2 sentiment analysis confirm both results: the predicted and observed head counts agree within 12% across all benchmarks, and the final architectures match or exceed BERT-base on distribution-specific tasks while using between three and seven times fewer parameters and no pre-training.
- Abstract(参考訳): トランスフォーマーアーキテクチャは、試行錯誤によって設計されている: 注意点数、深さ、およびヘッドサイズは、訓練が始まる前に固定され、選択を導く数学的原理は存在しない。
本報告では, トレーニング中の自己構造を決定するアーキテクチャであるINCRT(Incremental Transformer)を導入する。
単一のヘッドから始めると、INCRTは現在の設定が確実に不十分であるたびに1つのアテンションヘッドを追加する。
各成長決定は、タスクの方向構造から導出される1つのオンライン計算可能な幾何量によって駆動される。
2つの定理が理論のバックボーンを形成する。
第1の(ホメオスタティック収束)は、系は常に最小限(冗長な頭)と十分(しきい値の上の未捕獲方向エネルギー)の有限停止状態に達することを証明している。
第2の(圧縮センシングの類似性)は、この構成が含むヘッドの数に幾何上界を与え、タスクのスペクトル複雑性の関数として提供する。
SARS-CoV-2の変分分類とSST-2の感情分析の実験では、予測された頭数と観測された頭数は、全てのベンチマークで12%以内で一致し、最終アーキテクチャは3~7倍のパラメータを使用し、事前学習を行わないまま、分布固有のタスクにおいてBERTベースと一致または超える。
関連論文リスト
- DDCL-INCRT: A Self-Organising Transformer with Hierarchical Prototype Structure (Theoretical Foundations) [0.0]
本稿では,DDCL-INCRTについて紹介する。
主な理論的発見は、これらの2つのメカニズムが互いに強化していることである。
収束すると、ネットワークは表現的粒度によって順序付けられたヘッドの階層に自己組織化される。
論文 参考訳(メタデータ) (2026-04-02T10:39:06Z) - AgenticRS-EnsNAS: Ensemble-Decoupled Self-Evolving Architecture Search [10.111487060179252]
この記事では、Ensemble-Decoupled Architecture Searchを紹介します。
シングルラーナー評価からシステムレベルの性能を予測する。
候補毎の検索コストをO(M)からO(1)に削減し、O(M)のデプロイメントコストは評価された勝者に限られる。
論文 参考訳(メタデータ) (2026-03-20T14:57:15Z) - PRISM: Parallel Residual Iterative Sequence Model [52.26239951489612]
我々はこの緊張を解決するためにPRISM(Parallel Residual Iterative Sequence Model)を提案する。
PRISMは、パラレル化可能な形で多段階精製の重要な構造特性を捉える、ソルバに着想を得た帰納バイアスを導入している。
この定式化が Rank-$L$ の蓄積を達成することを証明し、更新多様体を単一ステップの Rank-$1$ ボトルネックを超えて構造的に拡張する。
論文 参考訳(メタデータ) (2026-02-11T12:39:41Z) - The Effect of Attention Head Count on Transformer Approximation [26.943083432025926]
変圧器の近似特性について検討し,特に注目点数の役割に着目した。
具体的には、十分な数の頭を持つ変圧器は効率的な近似を許容するが、多くの頭を持つ場合、パラメータの数は少なくとも$O(1/epsiloncT)$で、一定の$c$とシーケンス長$T$でスケールしなければならない。
論文 参考訳(メタデータ) (2025-10-08T05:27:25Z) - What One Cannot, Two Can: Two-Layer Transformers Provably Represent Induction Heads on Any-Order Markov Chains [64.31313691823088]
インコンテキスト学習(ICL)は、入力コンテキストからの情報を活用することで、訓練されたモデルが新しいタスクに適応することを学習するトランスフォーマーの能力である。
1層に1つの頭を持つ2層トランスは、実際に任意の条件k-gramを表現可能であることを示す。
論文 参考訳(メタデータ) (2025-08-10T07:03:01Z) - ANDHRA Bandersnatch: Training Neural Networks to Predict Parallel Realities [0.0]
この研究は、同じ入力信号を各レイヤで並列ブランチに分割する、新しいニューラルネットワークアーキテクチャを導入している。
分岐されたレイヤはマージされず、別々のネットワークパスを形成し、出力予測のために複数のネットワークヘッドが生成される。
論文 参考訳(メタデータ) (2024-11-28T15:36:34Z) - DepGraph: Towards Any Structural Pruning [68.40343338847664]
我々は、CNN、RNN、GNN、Transformersのような任意のアーキテクチャの一般的な構造解析について研究する。
本稿では,階層間の依存関係を明示的にモデル化し,包括的にグループ化してプルーニングを行う汎用かつ完全自動な手法であるemphDependency Graph(DepGraph)を提案する。
本研究では,画像用ResNe(X)t,DenseNet,MobileNet,Vision Transformer,グラフ用GAT,3Dポイントクラウド用DGCNN,言語用LSTMなど,さまざまなアーキテクチャやタスクに関する手法を広範囲に評価し,言語用LSTMと並行して示す。
論文 参考訳(メタデータ) (2023-01-30T14:02:33Z) - Unified Field Theory for Deep and Recurrent Neural Networks [56.735884560668985]
本稿では,再帰的ネットワークと深層ネットワークの両方に対する平均場理論の統一的,体系的な導出について述べる。
平均場理論への収束は、ディープネットワークよりもリカレントネットワークの方が典型的に遅い。
提案手法はガウス過程が1/n$の体系的展開の最下位次数であることを示す。
論文 参考訳(メタデータ) (2021-12-10T15:06:11Z) - Contextualized Embeddings based Convolutional Neural Networks for
Duplicate Question Identification [0.25782420501870296]
質問パラフレーズ識別(QPI)は,大規模質問回答フォーラムにとって重要な課題である。
本稿では,QPIタスクのための双方向変換器と畳み込みニューラルネットワークを組み合わせた新しいアーキテクチャを提案する。
実験結果から,Quora Question Pairsデータセットの最先端性能が得られた。
論文 参考訳(メタデータ) (2021-09-03T14:30:09Z) - X-volution: On the unification of convolution and self-attention [52.80459687846842]
本稿では,畳み込み操作と自己注意操作の両方からなるマルチブランチ基本モジュールを提案する。
提案したX-進化は、非常に競争力のある視覚的理解の改善を実現する。
論文 参考訳(メタデータ) (2021-06-04T04:32:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。