論文の概要: Length-Induced Embedding Collapse in PLM-based Models
- arxiv url: http://arxiv.org/abs/2410.24200v2
- Date: Tue, 10 Jun 2025 07:26:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:38.964995
- Title: Length-Induced Embedding Collapse in PLM-based Models
- Title(参考訳): PLMモデルにおける長さ誘起エンベディング崩壊
- Authors: Yuqi Zhou, Sunhao Dai, Zhanshuo Cao, Xiao Zhang, Jun Xu,
- Abstract要約: 私たちはLength Collapseと呼ぶ現象を導入し、長いテキストの埋め込みをまとめる傾向があります。
これらの違いが、下流の様々なタスクにおいて長いテキストで観察されるパフォーマンス低下にどのように寄与するかを考察する。
この問題に対処するため,Longth Collapse現象を緩和する簡単なTempScale法を提案する。
- 参考スコア(独自算出の注目度): 7.127156731612495
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text embeddings from PLM-based models enable a wide range of applications, yet their performance often degrades on longer texts. In this paper, we introduce a phenomenon we call Length Collapse, where embeddings of longer texts tend to cluster together. This clustering results in a distributional inconsistency between the embeddings of short and long texts. We further investigate how these differences contribute to the performance decline observed with longer texts across various downstream tasks. Through a rigorous theoretical analysis of the self-attention mechanism, which acts as a low-pass filter in PLM-based models, we demonstrate that as text length increases, the strength of low-pass filtering intensifies, causing embeddings to retain more low-frequency components. As a result, input token features become more similar, leading to clustering and ultimately the collapse of embeddings for longer texts. To address this issue, we propose a simple method, TempScale, which mitigates the Length Collapse phenomenon. By narrowing the gap in low-pass filtering rates between long and short texts, TempScale ensures more consistent embeddings across different text lengths. This approach leads to performance improvements of 0.94% on MTEB and 1.10% on LongEmbed, which focuses specifically on long-context retrieval, providing strong evidence for the validity of our analysis. The source code is available at https://github.com/Yuqi-Zhou/Length_Collapse.
- Abstract(参考訳): PLMベースのモデルからのテキスト埋め込みは幅広いアプリケーションを可能にするが、長いテキストでは性能が劣化することが多い。
本稿では,Longth Collapseと呼ばれる,長文の埋め込みが重なり合う現象を紹介する。
このクラスタリングは、短いテキストと長いテキストの埋め込みの間に分布上の矛盾をもたらす。
さらに、これらの違いが、下流の様々なタスクにまたがる長いテキストで観察されるパフォーマンス低下にどのように寄与するかを考察する。
PLMモデルにおける低域通過フィルタとして機能する自己保持機構の厳密な理論的解析により,テキスト長が増加するにつれて低域通過フィルタの強度が増大し,埋め込みがより低域通過成分を保持することを示した。
その結果、入力トークンの機能はより類似し、クラスタ化と最終的に長いテキストへの埋め込みの崩壊につながる。
この問題に対処するため,Longth Collapse現象を緩和する簡単なTempScale法を提案する。
長いテキストと短いテキストの間のローパスフィルタリング率のギャップを狭めることで、TempScaleは異なるテキストの長さにまたがるより一貫性のある埋め込みを実現する。
MTEBでは0.94%,LongEmbedでは1.10%,長文検索に特化して0.94%の性能向上を実現し,分析の有効性を示す強力な証拠を提供する。
ソースコードはhttps://github.com/Yuqi-Zhou/Length_Collapseで公開されている。
関連論文リスト
- LongReD: Mitigating Short-Text Degradation of Long-Context Large Language Models via Restoration Distillation [79.90766312484489]
回復蒸留(LongReD)による長期事前トレーニング
LongReDは、選択されたレイヤの隠れた状態をオリジナルのモデルから短いテキストで蒸留する。
一般的なテキストベンチマークの実験では、LongReDはモデルの短文性能を効果的に維持することを示した。
論文 参考訳(メタデータ) (2025-02-11T08:37:16Z) - LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - Length-Aware Multi-Kernel Transformer for Long Document Classification [4.796752450839119]
長いドキュメントは、かなりのメモリ消費のために、ニューラルネットワークモデルに固有の課題を生じさせる。
長文分類における新たな課題に対処するため,Longth-Aware Multi- Kernel Transformer (LAMKIT)を提案する。
論文 参考訳(メタデータ) (2024-05-11T16:48:06Z) - LongEmbed: Extending Embedding Models for Long Context Retrieval [87.60404151086715]
本稿では、埋め込みモデルのコンテキストウィンドウ拡張について検討し、追加のトレーニングを必要とせず、制限を32kまで押し上げる。
まず、新たに構築したLongEmbedベンチマークにおいて、コンテキスト検索のための現在の埋め込みモデルの性能について検討する。
実験では、PlaceRoのようなトレーニング不要のコンテキストウィンドウ拡張戦略が、既存の埋め込みモデルのコンテキストウィンドウを複数の折り畳みで効果的に拡張できることが示されている。
論文 参考訳(メタデータ) (2024-04-18T11:29:23Z) - FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z) - Training LLMs over Neurally Compressed Text [55.11828645767342]
本稿では,高度に圧縮されたテキスト上での大規模言語モデル(LLM)の訓練について検討する。
テキストをブロックに分割し,それぞれが同じビット長に圧縮する新しい圧縮手法であるEqual-Info Windowsを提案する。
提案手法は, 大規模化により向上し, パープレキシティと推論速度のベンチマークにおいて, バイトレベルのベースラインをはるかに上回る, ニューラルネットワークによる効果的な学習を実演する。
論文 参考訳(メタデータ) (2024-04-04T17:48:28Z) - Streamlining Redundant Layers to Compress Large Language Models [21.27944103424621]
本稿では,LLM-Streamlineについて紹介する。
異なる層が隠れた状態に様々な影響を与えるという観察に基づいており、重要でない層を識別することができる。
実験により, LLM-Streamlineは, 性能および訓練効率の両面において, 先行および同時のプルーニング法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-28T04:12:13Z) - LOCOST: State-Space Models for Long Document Abstractive Summarization [76.31514220737272]
長いコンテキスト入力を持つ条件付きテキスト生成のための状態空間モデルに基づくエンコーダデコーダアーキテクチャであるLOCOSTを提案する。
計算複雑性が$O(L log L)$の場合、このアーキテクチャは疎注意パターンに基づく最先端モデルよりもはるかに長いシーケンスを処理できる。
論文 参考訳(メタデータ) (2024-01-31T15:33:37Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z) - Adaptive Sparsity Level during Training for Efficient Time Series Forecasting with Transformers [20.23085795744602]
textbfAdaptive textbfSparsity textbfPALS(textbfPALS)を提案する。
PALSはスパーストレーニングとトレーニングの方法からインスピレーションを得ている。
スパースニューラルネットワークのトレーニングにおいて、新しい"拡張"メカニズムを導入し、モデルを動的に縮小、拡張、あるいは安定して適切なスパースレベルを見つけることを可能にする。
論文 参考訳(メタデータ) (2023-05-28T06:57:27Z) - Finding the Needle in a Haystack: Unsupervised Rationale Extraction from
Long Text Classifiers [20.10172411803626]
本稿では,RoBERTaを文的に適用し,トークンレベルで有意な有理を抽出する構成的ソフトアテンションアーキテクチャを提案する。
本手法は,感情分類データセットに基づいて,Longformer駆動のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-03-14T15:45:35Z) - Long-Short Term Masking Transformer: A Simple but Effective Baseline for
Document-level Neural Machine Translation [28.94748226472447]
文書レベルの翻訳における標準変換器の長所と短所について検討する。
本稿では,標準変圧器上での自己注意を隠蔽する,驚くほど単純な長短項マスクを提案する。
BLEUの強い結果が得られ、談話現象を捉えることができる。
論文 参考訳(メタデータ) (2020-09-19T00:29:51Z) - Controllable Time-Delay Transformer for Real-Time Punctuation Prediction
and Disfluency Detection [10.265607222257263]
本稿では,リアルタイムに句読影予測および拡散検出タスクを共同で完了する制御可能な時間遅延変換器(CT-Transformer)モデルを提案する。
提案手法は,従来のFスコアモデルよりも優れ,競合する推論速度を実現する。
論文 参考訳(メタデータ) (2020-03-03T03:17:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。