論文の概要: Capacity Matters: a Proof-of-Concept for Transformer Memorization on Real-World Data
- arxiv url: http://arxiv.org/abs/2506.14704v1
- Date: Tue, 17 Jun 2025 16:42:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.578774
- Title: Capacity Matters: a Proof-of-Concept for Transformer Memorization on Real-World Data
- Title(参考訳): 容量問題:実世界データにおける変圧器記憶のための概念実証
- Authors: Anton Changalidis, Aki Härmä,
- Abstract要約: 本稿では,モデルアーキテクチャとデータ構成が生成変換器の実証記憶能力に与える影響について検討する。
これらのモデルは、SNOMED(Systematized Nomenclature of Medicine)から得られた合成テキストデータセットを用いて訓練される
- 参考スコア(独自算出の注目度): 6.885357232728911
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper studies how the model architecture and data configurations influence the empirical memorization capacity of generative transformers. The models are trained using synthetic text datasets derived from the Systematized Nomenclature of Medicine (SNOMED) knowledge graph: triplets, representing static connections, and sequences, simulating complex relation patterns. The results show that embedding size is the primary determinant of learning speed and capacity, while additional layers provide limited benefits and may hinder performance on simpler datasets. Activation functions play a crucial role, and Softmax demonstrates greater stability and capacity. Furthermore, increasing the complexity of the data set seems to improve the final memorization. These insights improve our understanding of transformer memory mechanisms and provide a framework for optimizing model design with structured real-world data.
- Abstract(参考訳): 本稿では,モデルアーキテクチャとデータ構成が生成変換器の実証記憶能力に与える影響について検討する。
これらのモデルは、SNOMED(Systematized Nomenclature of Medicine)ナレッジグラフから派生した合成テキストデータセットを使用してトレーニングされる。
その結果、埋め込みサイズが学習速度とキャパシティの主要な決定要因である一方で、追加のレイヤがメリットを限定し、単純なデータセットのパフォーマンスを損なう可能性が示唆された。
活性化関数は重要な役割を担い、Softmaxはより安定性とキャパシティを示す。
さらに、データセットの複雑さを増大させることで、最終的な記憶が向上するようである。
これらの知見は、トランスフォーマー記憶機構の理解を改善し、構造化現実データを用いてモデル設計を最適化するためのフレームワークを提供する。
関連論文リスト
- Transformers Meet Relational Databases [0.0]
トランスフォーマーモデルは、基礎となるシーケンス対シーケンス表現に変換可能なすべての機械学習ドメインに継続的に拡張されている。
本稿では,形式的リレーショナルモデルに忠実に準拠するモジュール型ニューラルメッセージパッシング方式を提案する。
本研究は,新たに提案されたニューラルアーキテクチャのクラスにおいて,優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-12-06T17:48:43Z) - A Survey on Deep Tabular Learning [0.0]
タブラルデータは、その不均一な性質と空間構造が欠如していることから、深層学習の独特な課題を提示する。
本調査では,早期完全接続ネットワーク(FCN)から,TabNet,SAINT,TabTranSELU,MambaNetといった先進アーキテクチャに至るまで,タブラルデータのディープラーニングモデルの進化を概観する。
論文 参考訳(メタデータ) (2024-10-15T20:08:08Z) - Generative Expansion of Small Datasets: An Expansive Graph Approach [13.053285552524052]
最小限のサンプルから大規模で情報豊富なデータセットを生成する拡張合成モデルを提案する。
自己アテンション層と最適なトランスポートを持つオートエンコーダは、分散一貫性を洗練させる。
結果は同等のパフォーマンスを示し、モデルがトレーニングデータを効果的に増強する可能性を示している。
論文 参考訳(メタデータ) (2024-06-25T02:59:02Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - Homological Convolutional Neural Networks [4.615338063719135]
本稿では,トポロジ的に制約されたネットワーク表現を通じて,データ構造構造を利用した新しいディープラーニングアーキテクチャを提案する。
5つの古典的な機械学習モデルと3つのディープラーニングモデルに対して、18のベンチマークデータセットでモデルをテストします。
論文 参考訳(メタデータ) (2023-08-26T08:48:51Z) - SIM-Trans: Structure Information Modeling Transformer for Fine-grained
Visual Categorization [59.732036564862796]
本稿では,オブジェクト構造情報を変換器に組み込んだSIM-Trans(Structure Information Modeling Transformer)を提案する。
提案した2つのモジュールは軽量化されており、任意のトランスフォーマーネットワークにプラグインでき、エンドツーエンドで容易に訓練できる。
実験と解析により,提案したSIM-Transが細粒度視覚分類ベンチマークの最先端性能を達成することを示した。
論文 参考訳(メタデータ) (2022-08-31T03:00:07Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z) - PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive
Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。
本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T08:28:30Z) - Multilinear Compressive Learning with Prior Knowledge [106.12874293597754]
マルチリニア圧縮学習(MCL)フレームワークは、マルチリニア圧縮センシングと機械学習をエンドツーエンドシステムに統合する。
MCLの背後にある主要なアイデアは、下流学習タスクの信号から重要な特徴を捉えることのできるテンソル部分空間の存在を仮定することである。
本稿では、上記の要件、すなわち、関心の信号が分離可能なテンソル部分空間をどうやって見つけるかという、2つの要件に対処する新しい解決策を提案する。
論文 参考訳(メタデータ) (2020-02-17T19:06:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。