論文の概要: Adapting Language Models to Compress Contexts
- arxiv url: http://arxiv.org/abs/2305.14788v1
- Date: Wed, 24 May 2023 06:42:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 19:02:10.761936
- Title: Adapting Language Models to Compress Contexts
- Title(参考訳): コンテキスト圧縮に言語モデルを適用する
- Authors: Alexis Chevalier, Alexander Wettig, Anirudh Ajith, Danqi Chen
- Abstract要約: トランスフォーマーベースの言語モデル(LM)は強力で広く適用可能なツールであるが、その有用性は有限コンテキストウィンドウによって制限される。
本稿では,事前学習したLMを,長いコンテキストをコンパクトな要約ベクトルに圧縮可能なAutoCompressorに適応させることを提案する。
我々は最大30,720個のトークンのシーケンスでOPTモデルを微調整し、AutoCompressorが長いコンテキストを使ってパープレキシティを向上できることを示す。
- 参考スコア(独自算出の注目度): 75.80643803294755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based language models (LMs) are powerful and widely-applicable
tools, but their usefulness is constrained by a finite context window and the
expensive computational cost of processing long text documents. We propose to
adapt pre-trained LMs into AutoCompressors. These models are capable of
compressing long contexts into compact summary vectors, which are then
accessible to the model as soft prompts. Summary vectors are trained with an
unsupervised objective, whereby long documents are processed in segments and
summary vectors from all previous segments are used in language modeling. We
fine-tune OPT models on sequences of up to 30,720 tokens and show that
AutoCompressors can utilize long contexts to improve perplexity. We evaluate
AutoCompressors on in-context learning by compressing task demonstrations. We
find that summary vectors are good substitutes for plain-text demonstrations,
increasing accuracy while reducing inference cost. Finally, we explore the
benefits of pre-computing summary vectors for large corpora by applying summary
vectors to retrieval-augmented language modeling. Overall, AutoCompressors
emerge as a simple and inexpensive solution for extending the context window of
LMs while speeding up inference over long contexts.
- Abstract(参考訳): トランスフォーマティブ言語モデル(lms)は強力で広く適用可能なツールであるが、その有用性は、有限コンテキストウィンドウと長いテキスト文書を処理するための高価な計算コストによって制限されている。
プリトレーニングされたlmsをオートコンプレッサーに適用する。
これらのモデルは、長いコンテキストをコンパクトなサマリーベクトルに圧縮し、ソフトプロンプトとしてモデルにアクセスすることができる。
要約ベクトルは教師なしの目的で訓練され、長い文書はセグメントで処理され、全ての前のセグメントからの要約ベクトルは言語モデリングで使用される。
我々は最大30,720個のトークンのシーケンスでOPTモデルを微調整し、AutoCompressorが長いコンテキストを使ってパープレキシティを向上できることを示す。
タスクのデモンストレーションを圧縮することで,テキスト内学習におけるAutoCompressorの評価を行う。
要約ベクトルは平文実演の代用であり、推論コストを削減しつつ精度を高めている。
最後に,検索強化言語モデルに要約ベクトルを適用することにより,大規模コーパスに対する要約ベクトルの事前計算の利点を検討する。
全体として、AutoCompressorはLMのコンテキストウィンドウを拡張するためのシンプルで安価なソリューションとして登場し、長いコンテキストに対する推論を高速化する。
関連論文リスト
- Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。
2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。
LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文 参考訳(メタデータ) (2024-10-08T15:22:36Z) - CEV-LM: Controlled Edit Vector Language Model for Shaping Natural
Language Generations [5.148810760938979]
CEV-LMは,制約付き編集ベクトルを用いて3つの相補的メトリクスを制御する軽量な半自己回帰型言語モデルである。
我々は,CEV-LMがこれらの3つの指標に対して,よりターゲット的かつ正確な制御を提供することを示す。
論文 参考訳(メタデータ) (2024-02-22T05:07:31Z) - Generative Context-aware Fine-tuning of Self-supervised Speech Models [54.389711404209415]
生成型大規模言語モデル(LLM)生成コンテキスト情報の利用について検討する。
自己教師型音声モデルの微調整中に生成した情報を抽出する手法を提案する。
本稿では,SLUE と Libri-light のベンチマークを用いて,自動音声認識,名前付きエンティティ認識,感情分析を行う手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T15:46:02Z) - READ: Recurrent Adapter with Partial Video-Language Alignment for Parameter-Efficient Transfer Learning in Low-Resource Video-Language Modeling [31.745255364708864]
トレーニング済みモデルに軽量アダプタを導入し、微調整時にのみ更新する。
本稿では、時間的モデリング機能を実現するために、繰り返し計算を利用する新しいRecurrent Adapter(READ)を提案する。
我々は、READが既存のすべての微調整戦略を著しく上回る広範囲な実験を通じて、READフレームワークを検証する。
論文 参考訳(メタデータ) (2023-12-12T03:09:30Z) - RECOMP: Improving Retrieval-Augmented LMs with Compression and Selective
Augmentation [61.53695868960846]
テキスト内統合に先立って,検索した文書をテキスト要約に圧縮する手法を提案する。
これにより、計算コストを削減できるだけでなく、長期検索された文書の関連情報を識別する上で、LMの負担を軽減できる。
本研究では,あるLMに対して訓練した圧縮機を言語モデリングタスク上で他のLMに転送し,検索した文書にほぼ忠実な要約を提供することを示す。
論文 参考訳(メタデータ) (2023-10-06T17:55:36Z) - Large Language Models as General Pattern Machines [64.75501424160748]
我々は,事前訓練された大規模言語モデル (LLM) が,複雑なトークンシーケンスを自動回帰的に完了することを示す。
驚いたことに、語彙からランダムにサンプリングされたトークンを用いてシーケンスが表現された場合でも、パターン完了の習熟度を部分的に保持することができる。
本研究では,ロボット工学における問題に対して,これらのゼロショット機能がどのように適用されるかを検討する。
論文 参考訳(メタデータ) (2023-07-10T17:32:13Z) - Language Models Implement Simple Word2Vec-style Vector Arithmetic [32.2976613483151]
言語モデル(LM)に対する主要な批判は、その調査性である。
本稿では,その大きさと複雑さにもかかわらず,LMは単純なベクトル演算方式を用いて,いくつかのリレーショナルタスクを解くことの証拠を提示する。
論文 参考訳(メタデータ) (2023-05-25T15:04:01Z) - Dense Sparse Retrieval: Using Sparse Language Models for Inference
Efficient Dense Retrieval [37.22592489907125]
本研究では,高密度検索にスパース言語モデルを用いて推論効率を向上する方法について検討する。
スパース言語モデルは、ほとんど精度を落とさず、推論速度を最大4.3倍改善した直接置換として使用することができる。
論文 参考訳(メタデータ) (2023-03-31T20:21:32Z) - Context-aware Fine-tuning of Self-supervised Speech Models [56.95389222319555]
微調整におけるコンテキスト,すなわち周辺セグメントの使用について検討する。
我々はコンテキスト認識ファインチューニングと呼ばれる新しいアプローチを提案する。
いくつかの下流タスクに対して,SLUE と Libri-light ベンチマークを用いて提案手法の評価を行った。
論文 参考訳(メタデータ) (2022-12-16T15:46:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。