論文の概要: Exploring the Impact of a Transformer's Latent Space Geometry on Downstream Task Performance
- arxiv url: http://arxiv.org/abs/2406.12159v1
- Date: Tue, 18 Jun 2024 00:17:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 23:28:06.618344
- Title: Exploring the Impact of a Transformer's Latent Space Geometry on Downstream Task Performance
- Title(参考訳): 変圧器の潜時空間形状が下流作業性能に及ぼす影響について
- Authors: Anna C. Marbut, John W. Chandler, Travis J. Wheeler,
- Abstract要約: 事前学習の利点の多くは、潜在空間表現の幾何学的特徴によって捉えられる可能性がある。
量子化セル密度の測定値と平均GLUE性能との間には強い線形関係があることが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is generally thought that transformer-based large language models benefit from pre-training by learning generic linguistic knowledge that can be focused on a specific task during fine-tuning. However, we propose that much of the benefit from pre-training may be captured by geometric characteristics of the latent space representations, divorced from any specific linguistic knowledge. In this work we explore the relationship between GLUE benchmarking task performance and a variety of measures applied to the latent space resulting from BERT-type contextual language models. We find that there is a strong linear relationship between a measure of quantized cell density and average GLUE performance and that these measures may be predictive of otherwise surprising GLUE performance for several non-standard BERT-type models from the literature. These results may be suggestive of a strategy for decreasing pre-training requirements, wherein model initialization can be informed by the geometric characteristics of the model's latent space.
- Abstract(参考訳): トランスフォーマーに基づく大規模言語モデルは、微調整中に特定のタスクに集中できる汎用言語知識を学習することで、事前学習の恩恵を受けると考えられている。
しかし, 事前学習の利点の多くは, 特定の言語知識から逸脱した潜在空間表現の幾何学的特徴によって捉えられる可能性が示唆された。
本研究では、GLUEベンチマークタスク性能とBERT型文脈言語モデルによる潜在空間に適用される様々な尺度との関係について検討する。
本論文では, セル密度の定量化と平均GLUE性能の相関関係が強く, 非標準BERTモデルにおけるGLUE性能を予測できる可能性が示唆された。
これらの結果は、モデルの潜在空間の幾何学的特性からモデル初期化を知ることができる事前学習要求を減少させる戦略を示唆しているかもしれない。
関連論文リスト
- Realizing Disentanglement in LM Latent Space via Vocabulary-Defined Semantics [32.178931149612644]
本稿では,語彙定義意味論(vocabulary-defined semantics)と呼ばれる先駆的アプローチを導入する。
我々は、LM適応の新たな方法として、データ表現のセマンティッククラスタリングを行う。
提案手法は,検索拡張生成とパラメータ効率の微調整の最先端手法より優れている。
論文 参考訳(メタデータ) (2024-01-29T14:29:48Z) - Rethinking the Construction of Effective Metrics for Understanding the
Mechanisms of Pretrained Language Models [2.5863812709449543]
本稿では,事前学習された言語モデルのメカニズムを理解するためのメトリクスを構築するための新しいラインを提案する。
実験結果に基づいて,BERT型事前学習言語モデルの動作機構に関する憶測を提案する。
論文 参考訳(メタデータ) (2023-10-19T04:16:40Z) - The Geometry of Self-supervised Learning Models and its Impact on
Transfer Learning [62.601681746034956]
自己教師型学習(SSL)はコンピュータビジョンにおいて望ましいパラダイムとして登場した。
本稿では,各特徴空間内の局所的近傍を用いて異なるSSLモデルを分析するためのデータ駆動幾何学的手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T18:15:38Z) - A global analysis of metrics used for measuring performance in natural
language processing [9.433496814327086]
自然言語処理の性能測定に使用されるメトリクスの,最初の大規模断面積解析を行う。
結果から,現在使用されている自然言語処理メトリクスの大部分は,モデルの性能を不適切に反映する特性を持っていることが示唆された。
論文 参考訳(メタデータ) (2022-04-25T11:41:50Z) - Exploring Dimensionality Reduction Techniques in Multilingual
Transformers [64.78260098263489]
本稿では,多言語シームス変圧器の性能に及ぼす次元還元法の影響を包括的に考察する。
これは、それぞれ91.58% pm 2.59%$と54.65% pm 32.20%$の次元を平均で減少させることが可能であることを示している。
論文 参考訳(メタデータ) (2022-04-18T17:20:55Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - Evaluating natural language processing models with generalization
metrics that do not need access to any training or testing data [66.11139091362078]
本稿では,Hugingface から事前学習した大規模トランスフォーマーに対して,一般化指標を用いた最初のモデル選択結果を提案する。
ニッチな状況にもかかわらず、ヘビーテール(HT)の観点から派生したメトリクスは、特にNLPタスクにおいて有用である。
論文 参考訳(メタデータ) (2022-02-06T20:07:35Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Did the Cat Drink the Coffee? Challenging Transformers with Generalized
Event Knowledge [59.22170796793179]
Transformers Language Models (TLMs) を数学的適合のテクトダイナミックな評価のためのベンチマークで検証した。
以上の結果から, TLM は SDM に匹敵する性能が得られることが示された。
しかし、さらなる分析は、TLMがイベント知識の重要な側面を捉えていないことを一貫して示唆している。
論文 参考訳(メタデータ) (2021-07-22T20:52:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。