論文の概要: Vision-centric Token Compression in Large Language Model
- arxiv url: http://arxiv.org/abs/2502.00791v2
- Date: Tue, 04 Feb 2025 11:45:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:04:18.308311
- Title: Vision-centric Token Compression in Large Language Model
- Title(参考訳): 大規模言語モデルにおける視覚中心のトーケン圧縮
- Authors: Ling Xing, Alex Jinpeng Wang, Rui Yan, Jinhui Tang,
- Abstract要約: テキストトークンのシーケンスに直接適用される小さなビジョンエンコーダは、テキストタスク上でテキストエンコーダと競合する可能性があることを示す。
VISTはFLOPを16%削減し、メモリ使用量を50%削減した。
このアプローチは、TriviaQA、NQ、PopQA、TREF、SST2、SST5といったベンチマークよりも平均5.7%、従来のテキストエンコーダベースの手法よりも優れた結果をもたらす。
- 参考スコア(独自算出の注目度): 43.36321098385599
- License:
- Abstract: Large Language Models (LLMs) have revolutionized natural language processing, excelling in handling longer sequences. However, the inefficiency and redundancy in processing extended in-context tokens remain a challenge. Many attempts to address this rely on compressing tokens with smaller text encoders, yet we question whether text encoders are truly indispensable. Our journey leads to an unexpected discovery-a much smaller vision encoder, applied directly to sequences of text tokens, can rival text encoders on text tasks. When pre-trained on large amounts of data and transferred to multiple mid-sized or small text understanding benchmarks, VIST leads to comparable results with 16% fewer FLOPs and 50% less memory usage. We further uncover significant token redundancy and devise a frequency-based masking strategy to guide the focus of the visual encoder toward the most critical tokens. Interestingly, we observe the trained visual encoder performs like a summarizer, selectively ignoring less important words such as prepositions and conjunctions. This approach delivers remarkable results, outperforming traditional text encoder-based methods by 5.7% on average over benchmarks like TriviaQA, NQ, PopQA, TREF, SST2, and SST5, setting a new standard for token efficiency in LLMs.
- Abstract(参考訳): 大きな言語モデル(LLM)は自然言語処理に革命をもたらし、長いシーケンスを扱うのに優れています。
しかし、拡張されたコンテキスト内トークンの処理における非効率性と冗長性は依然として課題である。
これを解決するための多くの試みは、より小さなテキストエンコーダでトークンを圧縮することに依存しているが、テキストエンコーダが本当に必須かどうか疑問である。
私たちの旅は予期せぬ発見につながります - テキストトークンのシーケンスに直接適用される、はるかに小さなビジョンエンコーダで、テキストタスク上のテキストエンコーダと競合します。
大量のデータを事前トレーニングし、複数の中規模または小さなテキスト理解ベンチマークに転送すると、VISTはFLOPを16%削減し、メモリ使用量を50%削減した。
さらに、重要なトークンの冗長性を明らかにし、最も重要なトークンへの視覚エンコーダの焦点を導くために、周波数ベースのマスキング戦略を考案する。
興味深いことに、トレーニングされたビジュアルエンコーダは要約器のように動作し、前置詞や接続詞のような重要でない単語を選択的に無視する。
このアプローチは、TriviaQA、NQ、PopQA、TREF、SST2、SST5といったベンチマークよりも平均5.7%高いパフォーマンスで従来のテキストエンコーダベースのメソッドを上回り、LLMにおけるトークン効率の新たな標準となる。
関連論文リスト
- Batching BPE Tokenization Merges [55.2480439325792]
BatchBPEはByte PairアルゴリズムのPython実装である。
ベーシックラップトップ上で高品質なトークンをトレーニングするために使用される。
論文 参考訳(メタデータ) (2024-08-05T09:37:21Z) - Training LLMs over Neurally Compressed Text [55.11828645767342]
本稿では,高度に圧縮されたテキスト上での大規模言語モデル(LLM)の訓練について検討する。
テキストをブロックに分割し,それぞれが同じビット長に圧縮する新しい圧縮手法であるEqual-Info Windowsを提案する。
提案手法は, 大規模化により向上し, パープレキシティと推論速度のベンチマークにおいて, バイトレベルのベースラインをはるかに上回る, ニューラルネットワークによる効果的な学習を実演する。
論文 参考訳(メタデータ) (2024-04-04T17:48:28Z) - Learning with Unmasked Tokens Drives Stronger Vision Learners [39.752789949834536]
マスク付き画像モデリング(MIM)は,自己指導型学習戦略の先駆けとなる。
トレーニングプロセスに不正トークンを明示的に組み込むことでMIMを改善する。
ImageNet-1Kでは、VT-Bで84.2%の精度を実現し、0.6%のゲインを得た。
論文 参考訳(メタデータ) (2023-10-20T15:42:47Z) - Semantic Compression With Large Language Models [1.0874100424278175]
大規模言語モデル(LLM)は、情報検索、質問応答、要約、コード生成タスクに革命をもたらしている。
LLMは本質的に、一度に処理できる入力トークンと出力トークンの数によって制限される。
本稿では,LLMの研究への3つの貢献について述べる。
論文 参考訳(メタデータ) (2023-04-25T01:47:05Z) - DeCap: Decoding CLIP Latents for Zero-Shot Captioning via Text-Only
Training [73.74291217502928]
ゼロショットキャプションのための単純なフレームワークであるDeCapを提案する。
軽量な視覚認識言語デコーダを提案する。
視覚的な埋め込みはCLIPテキスト埋め込み空間に投影するが、投影された埋め込みは視覚的な入力の情報を保持する。
論文 参考訳(メタデータ) (2023-03-06T11:02:47Z) - Memory Augmented Lookup Dictionary based Language Modeling for Automatic
Speech Recognition [20.926163659469587]
LMのための新しいメモリ拡張ルックアップ辞書に基づくトランスフォーマーアーキテクチャを提案する。
新しく導入されたルックアップ辞書は、トレーニングセットにリッチなコンテキスト情報を組み込んでおり、ロングテールトークンを正確に予測するのに不可欠である。
提案手法は,ワード/文字誤り率とテールトークン誤り率の両方に大きな差で,ベースライントランスフォーマーLMより優れていることを示す。
論文 参考訳(メタデータ) (2022-12-30T22:26:57Z) - ConTextual Mask Auto-Encoder for Dense Passage Retrieval [49.49460769701308]
CoT-MAEは,高密度経路抽出のための簡易かつ効果的な生成前訓練法である。
文のセマンティクスを高密度ベクトルに圧縮する学習は、自己教師付きおよび文脈教師付きマスキングによる自動エンコーディングによって行われる。
我々は,大規模経路探索ベンチマークの実験を行い,強力なベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2022-08-16T11:17:22Z) - Efficient Long-Text Understanding with Short-Text Models [38.8375175429553]
SLEDは、バトルテストされた短文事前訓練されたLMを再利用し活用する、長いシーケンスを処理するための単純なアプローチである。
入力を重なり合うチャンクに分割し、それぞれを短文のLMエンコーダでエンコードし、事前訓練されたデコーダを使用してチャンク間で情報を融合する。
SLEDは、最大50倍の大きさで、専用で高価な事前訓練ステップを必要とする特殊なモデルと競合している。
論文 参考訳(メタデータ) (2022-08-01T11:14:39Z) - Cross-Thought for Sentence Encoder Pre-training [89.32270059777025]
Cross-Thoughtは、事前トレーニングシーケンスエンコーダに対する新しいアプローチである。
我々は、Transformerベースのシーケンスエンコーダを、多数の短いシーケンスに対してトレーニングする。
質問応答とテキストのエンコーダタスクの実験は、事前学習したエンコーダが最先端のエンコーダより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-07T21:02:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。