論文の概要: T-FREE: Tokenizer-Free Generative LLMs via Sparse Representations for Memory-Efficient Embeddings
- arxiv url: http://arxiv.org/abs/2406.19223v1
- Date: Thu, 27 Jun 2024 14:49:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 13:58:17.793204
- Title: T-FREE: Tokenizer-Free Generative LLMs via Sparse Representations for Memory-Efficient Embeddings
- Title(参考訳): T-FREE: メモリ効率の良い埋め込みのためのスパース表現によるTokenizer-free Generative LLM
- Authors: Björn Deiseroth, Manuel Brack, Patrick Schramowski, Kristian Kersting, Samuel Weinbach,
- Abstract要約: トケナイザは、大規模言語モデルで情報をエンコードするのに不可欠だが、その開発は、最近停滞している。
文字三重項上のスパースアクティベーションパターンを通じて単語を直接埋め込むT-FREEを提案する。
- 参考スコア(独自算出の注目度): 24.907210241965466
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Tokenizers are crucial for encoding information in Large Language Models, but their development has recently stagnated, and they contain inherent weaknesses. Major limitations include computational overhead, ineffective vocabulary use, and unnecessarily large embedding and head layers. Additionally, their performance is biased towards a reference corpus, leading to reduced effectiveness for underrepresented languages. To remedy these issues, we propose T-FREE, which directly embeds words through sparse activation patterns over character triplets, and does not require a reference corpus. T-FREE inherently exploits morphological similarities and allows for strong compression of embedding layers. In our exhaustive experimental evaluation, we achieve competitive downstream performance with a parameter reduction of more than 85% on these layers. Further, T-FREE shows significant improvements in cross-lingual transfer learning.
- Abstract(参考訳): トケナイザーは、大規模言語モデルで情報をエンコードするのに不可欠であるが、その開発は、最近停滞しており、固有の弱点を含んでいる。
主な制限は、計算オーバーヘッド、非効率な語彙の使用、不要に大きな埋め込み層とヘッド層である。
さらに、それらのパフォーマンスは参照コーパスに偏りがあり、表現不足の言語の有効性が低下する。
これらの問題を解決するため,文字三重項上のスパースアクティベーションパターンを通じて単語を直接埋め込み,参照コーパスを必要としないT-FREEを提案する。
T-FREEは本質的に形態学的類似性を利用し、埋め込み層の強い圧縮を可能にする。
実験の結果,これらの層ではパラメータが85%以上減少し,競争力のある下流性能が得られた。
さらに、T-FREEは言語間移動学習の大幅な改善を示している。
関連論文リスト
- Refining Sentence Embedding Model through Ranking Sentences Generation with Large Language Models [60.00178316095646]
多くのNLPタスクには文の埋め込みが不可欠であり、NLIのようなデータセットを使用して強いパフォーマンスを達成する対照的な学習方法がある。
近年の研究では、大きな言語モデル(LLM)を利用して文ペアを生成し、アノテーション依存を減らしている。
本稿では,潜在空間におけるLLMの生成方向を制御する手法を提案する。
複数のベンチマークによる実験により,本手法は文合成に要するコストを最小限に抑えつつ,新たなSOTA性能を実現することを示した。
論文 参考訳(メタデータ) (2025-02-19T12:07:53Z) - FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z) - An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - Rethinking Tokenization: Crafting Better Tokenizers for Large Language
Models [0.0]
トークン化は言語モデル(LM)のパフォーマンスに大きく影響する。
本稿では,トークンと型とのバランスを,単語レベルからサブワードレベルへのトークン化の進化を追究する。
Less-is-Better (LiB) モデルは LLM トークンの新たなアプローチになり得る。
論文 参考訳(メタデータ) (2024-03-01T10:03:07Z) - The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics [74.99898531299148]
本研究は,興味のある言語への埋め込みエントリを制限し,時間と記憶効率を高めることによる語彙トリミング(VT)について検討する。
Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という2つの言語を異なる言語ファミリやサイズに適用する。
その結果、VTは小型モデルのメモリ使用量を50%近く削減し、生成速度が25%向上した。
論文 参考訳(メタデータ) (2023-11-16T09:35:50Z) - Alleviating Over-smoothing for Unsupervised Sentence Representation [96.19497378628594]
本稿では,この問題を緩和するために,SSCL(Self-Contrastive Learning)というシンプルな手法を提案する。
提案手法は非常に単純で,様々な最先端モデルに拡張して,性能向上を図ることができる。
論文 参考訳(メタデータ) (2023-05-09T11:00:02Z) - What Do Compressed Multilingual Machine Translation Models Forget? [102.50127671423752]
平均BLEUはわずかに減少するが,表現不足言語の性能は著しく低下する。
圧縮は,高リソース言語においても,本質的な性差や意味バイアスを増幅することを示した。
論文 参考訳(メタデータ) (2022-05-22T13:54:44Z) - Speechformer: Reducing Information Loss in Direct Speech Translation [13.89298686257514]
入力シーケンス長に対するトランスフォーマーの二次的複雑性は、音声信号と同様、その採用を妨げる。
現在のソリューションは、生音声特徴の固定サンプリングに基づいて、初期最適部分圧縮を利用する。
本稿では,最初の損失圧縮を回避するアーキテクチャであるSpeechformerを提案し,より情報のある言語基準に従って情報のみを高レベルに集約する。
論文 参考訳(メタデータ) (2021-09-09T22:08:42Z) - CANINE: Pre-training an Efficient Tokenization-Free Encoder for Language
Representation [12.005340904206697]
CANINEは、明示的なトークン化や語彙のない文字シーケンス上で直接動作する神経エンコーダです。
CanINEは、TyDi QAにおいて、比較可能なmBERTモデルを >= 1 F1 で上回っている。
論文 参考訳(メタデータ) (2021-03-11T18:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。