論文の概要: On The Adaptation of Unlimiformer for Decoder-Only Transformers
- arxiv url: http://arxiv.org/abs/2410.01637v1
- Date: Wed, 2 Oct 2024 15:08:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 16:23:10.210573
- Title: On The Adaptation of Unlimiformer for Decoder-Only Transformers
- Title(参考訳): デコーダオンリー変圧器におけるUnlimiformerの適応について
- Authors: Kian Ahrabian, Alon Benhaim, Barun Patra, Jay Pujara, Saksham Singhal, Xia Song,
- Abstract要約: GPT-4とClaude 2は、それぞれ8k/32kと100kの長いコンテキスト長を導入した。
LLama-2のような一般的なモデルはコンテキスト長が4k以下である。
Unlimiformerは、クロスアテンション計算をkNNインデックスにオフロードする一般的なベクトル検索拡張手法である。
- 参考スコア(独自算出の注目度): 41.99496418823899
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the prominent issues stifling the current generation of large language models is their limited context length. Recent proprietary models such as GPT-4 and Claude 2 have introduced longer context lengths, 8k/32k and 100k, respectively; however, despite the efforts in the community, most common models, such as LLama-2, have a context length of 4k or less. Unlimiformer (Bertsch et al., 2023) is a recently popular vector-retrieval augmentation method that offloads cross-attention computations to a kNN index. However, its main limitation is incompatibility with decoder-only transformers out of the box. In this work, we explore practical considerations of adapting Unlimiformer to decoder-only transformers and introduce a series of modifications to overcome this limitation. Moreover, we expand the original experimental setup on summarization to include a new task (i.e., free-form Q&A) and an instruction-tuned model (i.e., a custom 6.7B GPT model). Our results showcase the effectiveness of these modifications on summarization, performing on par with a model with 2x the context length. Moreover, we discuss limitations and future directions for free-form Q&A and instruction-tuned models.
- Abstract(参考訳): 現在の大規模言語モデルの世代を悩ませている問題の1つは、コンテキスト長の制限である。
GPT-4やClaude 2のような最近のプロプライエタリなモデルは、それぞれ8k/32kと100kの長いコンテキスト長を導入したが、コミュニティでの取り組みにもかかわらず、LLama-2のような一般的なモデルは、コンテキスト長が4k以下である。
Unlimiformer (Bertsch et al , 2023) は近年,kNNインデックスにクロスアテンション計算をオフロードするベクトル検索拡張法として人気がある。
しかし、主な制限はデコーダのみのトランスフォーマーと互換性がないことである。
本研究では,Unlimiformerをデコーダのみの変換器に適用する実践的考察を行い,この制限を克服するための一連の修正を導入する。
さらに、要約に関する最初の実験的な設定を拡張し、新しいタスク(自由形式Q&A)と命令調整モデル(カスタム6.7B GPTモデル)を含める。
以上の結果から,文脈長の2倍のモデルに対して,これらの修正が要約に与える影響が示された。
さらに,自由形式Q&Aモデルと命令調整モデルに対する制約や今後の方向性についても論じる。
関連論文リスト
- FuXi-$α$: Scaling Recommendation Model with Feature Interaction Enhanced Transformer [81.12174905444229]
近年の進歩は、大規模レコメンデーションモデルに逐次レコメンデーションモデルを拡張することが効果的な戦略であることを示している。
これらの問題に対処するために、FuXi-$alpha$と呼ばれる新しいモデルを提案する。
我々のモデルは既存のモデルよりも優れており、モデルのサイズが大きくなるにつれてその性能は継続的に向上する。
論文 参考訳(メタデータ) (2025-02-05T09:46:54Z) - MatFormer: Nested Transformer for Elastic Inference [91.45687988953435]
MatFormerは、多様なデプロイメント制約にまたがる弾性推論を提供するように設計された、新しいTransformerアーキテクチャである。
MatFormerは、標準的なTransformerモデルにネストフィードフォワードネットワーク(FFN)ブロック構造を組み込むことで、これを実現している。
8億5000万デコーダのみのMatFormer言語モデル(MatLM)により,5億2200万から8億5千万のパラメータにまたがる複数の小さなモデルを抽出できることを示す。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - Functional Interpolation for Relative Positions Improves Long Context
Transformers [86.12843093589]
本稿では,より長いコンテキストに変換器の一般化を改善するために,プログレッシブなFIREを用いた関数的相対的位置符号化を提案する。
理論的には、これはT5のRPE、Alibi、Kerpleなどの一般的な相対的な位置エンコーディングのいくつかを表現できる。
FIREモデルは、ゼロショット言語モデリングと長文ベンチマークの両方において、より長い文脈での一般化がより優れていることを示す。
論文 参考訳(メタデータ) (2023-10-06T17:59:11Z) - Fourier Transformer: Fast Long Range Modeling by Removing Sequence
Redundancy with FFT Operator [24.690247474891958]
フーリエ変換器は、様々な大きな事前訓練されたモデルから継承する能力を維持しながら、計算コストを大幅に削減することができる。
本モデルは,長距離モデリングベンチマークLRAにおいて,トランスフォーマーベースモデル間の最先端性能を実現する。
CNN/DailyMailやELI5などのシークエンシャルなシークエンスタスクでは、BARTを継承することで、私たちのモデルは標準のBARTよりも優れています。
論文 参考訳(メタデータ) (2023-05-24T12:33:06Z) - Knowledge Distillation in Vision Transformers: A Critical Review [6.508088032296086]
ビジョントランスフォーマー(ViT)は、畳み込みニューラルネットワーク(CNN)よりも優れたパフォーマンス向上を実証した。
モデル圧縮は、最近、潜在的治療としてかなりの研究の注目を集めている。
本稿では、VTモデルの効率的な圧縮のためのKDに基づく様々なアプローチについて論じる。
論文 参考訳(メタデータ) (2023-02-04T06:30:57Z) - Efficient U-Transformer with Boundary-Aware Loss for Action Segmentation [34.502472072265164]
U-Netアーキテクチャを組み込むことで、時間的畳み込みのない純粋なトランスフォーマーベースモデルを設計する。
本稿では,アテンションモジュールからのフレーム間の類似度スコアの分布に基づく境界認識損失を提案する。
論文 参考訳(メタデータ) (2022-05-26T15:30:34Z) - Transformer Quality in Linear Time [95.2692237947444]
本稿では,トランスフォーマーの設計選択を再考し,長いシーケンスを扱う際の弱点に対処する手法を提案する。
まず,低品質な単一ヘッドアテンションを最小限に設定できる,ゲートアテンションユニットというシンプルなレイヤを提案する。
そこで我々は,この新層を補完する線形近似法を提案する。
論文 参考訳(メタデータ) (2022-02-21T18:59:38Z) - Scale Efficiently: Insights from Pre-training and Fine-tuning
Transformers [57.931830650323]
本稿では,事前学習および微調整型変圧器によるスケーリングの洞察について述べる。
モデルのサイズだけでなく、モデル形状が下流の微調整に重要であることを示す。
再設計したモデルにより、下流の微調整品質が向上する。
論文 参考訳(メタデータ) (2021-09-22T12:29:15Z) - Adding Recurrence to Pretrained Transformers for Improved Efficiency and
Context Size [41.624797099537375]
本稿では,事前学習したトランスフォーマー言語モデルを適用する新しい手法を提案する。
PG-19 と WikiText-103 コーパスの未修正 GPT-2 モデルよりも難易度が高いことがわかった。
論文 参考訳(メタデータ) (2020-08-16T23:19:30Z) - CoDeNet: Efficient Deployment of Input-Adaptive Object Detection on
Embedded FPGAs [41.43273142203345]
FPGAの柔軟性を利用して、変形可能な畳み込みを伴う新しいオブジェクト検出パイプラインを開発する。
高効率実装では、ソリューションは毎秒26.9フレームに達し、小さなモデルサイズは0.76MBである。
我々のモデルはPascal VOCで67.1 AP50に達し、パラメータは20.9倍小さいがTiny-YOLOより10%正確である。
論文 参考訳(メタデータ) (2020-06-12T17:56:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。