論文の概要: Length-Induced Embedding Collapse in Transformer-based Models
- arxiv url: http://arxiv.org/abs/2410.24200v1
- Date: Thu, 31 Oct 2024 17:55:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:03:01.592025
- Title: Length-Induced Embedding Collapse in Transformer-based Models
- Title(参考訳): 変圧器モデルにおける長さ誘起エンベディング崩壊
- Authors: Yuqi Zhou, Sunhao Dai, Zhanshuo Cao, Xiao Zhang, Jun Xu,
- Abstract要約: 性能劣化は、長文埋め込みが狭い空間に崩壊するLongth Collapseと呼ばれる現象によるものであることが判明した。
この崩壊により、異なるテキスト長の埋め込み間の分散不整合が生じ、下流タスクのパフォーマンスが損なわれる。
本研究では,低フィルタ減衰率の高いソフトマックス()に温度を導入することにより,望ましくない長さの崩壊制限を緩和することを提案する。
- 参考スコア(独自算出の注目度): 7.127156731612495
- License:
- Abstract: Text embeddings enable various applications, but their performance deteriorates on longer texts. In this paper, we find that the performance degradation is due to a phenomenon called Length Collapse, where longer text embeddings collapse into a narrow space. This collapse results in a distributional inconsistency between embeddings of different text lengths, ultimately hurting the performance of downstream tasks. Theoretically, by considering the self-attention mechanism inherently functions as a low-pass filter, we prove that long sequences increase the attenuation rate of the low-pass filter effect of the self-attention mechanism. With layers going deeper, excessive low-pass filtering causes the token signals to retain only their Direct-Current (DC) component, which means the input token feature maps will collapse into a narrow space, especially in long texts. Based on the above analysis, we propose to mitigate the undesirable length collapse limitation by introducing a temperature in softmax(), which achieves a higher low-filter attenuation rate. The tuning-free method, called TempScale, can be plugged into multiple transformer-based embedding models. Empirically, we demonstrate that TempScale can improve existing embedding models, especially on long text inputs, bringing up to 0.53% performance gains on 40 datasets from Massive Text Embedding Benchmark (MTEB) and 0.82% performance gains on 4 datasets from LongEmbed, which specifically focuses on long context retrieval.
- Abstract(参考訳): テキスト埋め込みは様々なアプリケーションを可能にするが、そのパフォーマンスは長いテキストで劣化する。
本稿では,長文埋め込みが狭い空間に崩壊するLongth Collapse現象による性能劣化について述べる。
この崩壊により、異なるテキスト長の埋め込み間の分散不整合が生じ、最終的に下流タスクのパフォーマンスが損なわれる。
理論的には、自己アテンション機構が本質的に低域フィルタとして機能することを考えると、長い列は自己アテンション機構の低域フィルタ効果の減衰率を高めることが証明される。
層が深くなると、過剰なローパスフィルタリングによりトークン信号は直流(Direct-Current)コンポーネントのみを保持することになり、特に長いテキストでは入力トークンの特徴マップが狭いスペースに崩壊する。
以上の分析に基づいて,ソフトマックス()に温度を導入し,高い低フィルタ減衰率を実現することにより,望ましくない長さの崩壊制限を緩和することを提案する。
TempScaleと呼ばれるチューニング不要の手法は、複数のトランスフォーマーベースの埋め込みモデルにプラグインすることができる。
実験的に、TempScaleは、特にロングテキスト入力において、既存の埋め込みモデルを改善することができ、Massive Text Embedding Benchmark(MTEB)の40データセットで0.53%のパフォーマンス向上、LongEmbedの4データセットで0.82%のパフォーマンス向上を実現している。
関連論文リスト
- LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - Length-Aware Multi-Kernel Transformer for Long Document Classification [4.796752450839119]
長いドキュメントは、かなりのメモリ消費のために、ニューラルネットワークモデルに固有の課題を生じさせる。
長文分類における新たな課題に対処するため,Longth-Aware Multi- Kernel Transformer (LAMKIT)を提案する。
論文 参考訳(メタデータ) (2024-05-11T16:48:06Z) - LongEmbed: Extending Embedding Models for Long Context Retrieval [87.60404151086715]
本稿では、埋め込みモデルのコンテキストウィンドウ拡張について検討し、追加のトレーニングを必要とせず、制限を32kまで押し上げる。
まず、新たに構築したLongEmbedベンチマークにおいて、コンテキスト検索のための現在の埋め込みモデルの性能について検討する。
実験では、PlaceRoのようなトレーニング不要のコンテキストウィンドウ拡張戦略が、既存の埋め込みモデルのコンテキストウィンドウを複数の折り畳みで効果的に拡張できることが示されている。
論文 参考訳(メタデータ) (2024-04-18T11:29:23Z) - FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z) - Training LLMs over Neurally Compressed Text [55.11828645767342]
本稿では,高度に圧縮されたテキスト上での大規模言語モデル(LLM)の訓練について検討する。
テキストをブロックに分割し,それぞれが同じビット長に圧縮する新しい圧縮手法であるEqual-Info Windowsを提案する。
提案手法は, 大規模化により向上し, パープレキシティと推論速度のベンチマークにおいて, バイトレベルのベースラインをはるかに上回る, ニューラルネットワークによる効果的な学習を実演する。
論文 参考訳(メタデータ) (2024-04-04T17:48:28Z) - LOCOST: State-Space Models for Long Document Abstractive Summarization [76.31514220737272]
長いコンテキスト入力を持つ条件付きテキスト生成のための状態空間モデルに基づくエンコーダデコーダアーキテクチャであるLOCOSTを提案する。
計算複雑性が$O(L log L)$の場合、このアーキテクチャは疎注意パターンに基づく最先端モデルよりもはるかに長いシーケンスを処理できる。
論文 参考訳(メタデータ) (2024-01-31T15:33:37Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z) - Adaptive Sparsity Level during Training for Efficient Time Series Forecasting with Transformers [20.23085795744602]
textbfAdaptive textbfSparsity textbfPALS(textbfPALS)を提案する。
PALSはスパーストレーニングとトレーニングの方法からインスピレーションを得ている。
スパースニューラルネットワークのトレーニングにおいて、新しい"拡張"メカニズムを導入し、モデルを動的に縮小、拡張、あるいは安定して適切なスパースレベルを見つけることを可能にする。
論文 参考訳(メタデータ) (2023-05-28T06:57:27Z) - Finding the Needle in a Haystack: Unsupervised Rationale Extraction from
Long Text Classifiers [20.10172411803626]
本稿では,RoBERTaを文的に適用し,トークンレベルで有意な有理を抽出する構成的ソフトアテンションアーキテクチャを提案する。
本手法は,感情分類データセットに基づいて,Longformer駆動のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-03-14T15:45:35Z) - Long-Short Term Masking Transformer: A Simple but Effective Baseline for
Document-level Neural Machine Translation [28.94748226472447]
文書レベルの翻訳における標準変換器の長所と短所について検討する。
本稿では,標準変圧器上での自己注意を隠蔽する,驚くほど単純な長短項マスクを提案する。
BLEUの強い結果が得られ、談話現象を捉えることができる。
論文 参考訳(メタデータ) (2020-09-19T00:29:51Z) - Controllable Time-Delay Transformer for Real-Time Punctuation Prediction
and Disfluency Detection [10.265607222257263]
本稿では,リアルタイムに句読影予測および拡散検出タスクを共同で完了する制御可能な時間遅延変換器(CT-Transformer)モデルを提案する。
提案手法は,従来のFスコアモデルよりも優れ,競合する推論速度を実現する。
論文 参考訳(メタデータ) (2020-03-03T03:17:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。