論文の概要: FastMem: Fast Memorization of Prompt Improves Context Awareness of Large Language Models
- arxiv url: http://arxiv.org/abs/2406.16069v1
- Date: Sun, 23 Jun 2024 10:36:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 19:13:57.663086
- Title: FastMem: Fast Memorization of Prompt Improves Context Awareness of Large Language Models
- Title(参考訳): FastMem: Promptの高速覚書化により,大規模言語モデルのコンテキスト認識性が向上
- Authors: Junyi Zhu, Shuochen Liu, Yu Yu, Bo Tang, Yibo Yan, Zhiyu Li, Feiyu Xiong, Tong Xu, Matthew B. Blaschko,
- Abstract要約: 我々は、命令を微調整した大規模言語モデルのコンテキスト認識を強化する新しい手法であるFastMemを紹介する。
FastMemは、最後のFeed-Forward Network (FFN)モジュールのみを微調整することで、推論前のプロンプトの可能性を最大化する。
本実験は, 読解理解, テキスト要約, 出力構造への順守において, かなりの効果を示した。
- 参考スコア(独自算出の注目度): 24.030755262499994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) excel in generating coherent text, but they often struggle with context awareness, leading to inaccuracies in tasks requiring faithful adherence to provided information. We introduce FastMem, a novel method designed to enhance instruction fine-tuned LLMs' context awareness through fast memorization of the prompt. FastMem maximizes the likelihood of the prompt before inference by fine-tuning only the last Feed-Forward Network (FFN) module. This targeted approach ensures efficient optimization without overfitting, significantly improving the model's ability to comprehend and accurately follow the context. Our experiments demonstrate substantial gains in reading comprehension, text summarization and adherence to output structures. For instance, FastMem improves the accuracy of Llama 3-8B-Inst on the NQ-SWAP dataset from 59.1% to 71.6%, and reduces the output structure failure rate of Qwen 1.5-4B-Chat from 34.9% to 25.5%. Extensive experimental results highlight FastMem's potential to offer a robust solution to enhance the reliability and accuracy of LLMs in various applications. Our code is available at: https://github.com/IAAR-Shanghai/FastMem
- Abstract(参考訳): 大きな言語モデル(LLM)は、一貫性のあるテキストを生成するのに優れているが、コンテキスト認識に苦しむことが多く、提供された情報に忠実に従わなければならないタスクにおいて不正確である。
我々は,命令を微調整したLLMの文脈認識を高速な記憶により向上させる新しい手法であるFastMemを紹介する。
FastMemは、最後のFeed-Forward Network (FFN)モジュールのみを微調整することで、推論前のプロンプトの可能性を最大化する。
このターゲットのアプローチは、過度に適合することなく効率的な最適化を保証し、モデルの理解能力を大幅に改善し、コンテキストを正確に追従する。
本実験は, 読解理解, テキスト要約, 出力構造への順守において, かなりの効果を示した。
例えば、FastMemはNQ-SWAPデータセット上のLlama 3-8B-Instの精度を59.1%から71.6%に改善し、Qwen 1.5-4B-Chatの出力構造失敗率を34.9%から25.5%に下げる。
大規模な実験の結果は、さまざまなアプリケーションにおけるLLMの信頼性と精度を高める堅牢なソリューションを提供するFastMemの可能性を浮き彫りにしている。
私たちのコードは、https://github.com/IAAR-Shanghai/FastMemで利用可能です。
関連論文リスト
- LiveMind: Low-latency Large Language Models with Simultaneous Inference [9.795240210326346]
大規模言語モデル(LLM)推論のための新しい低レイテンシ推論フレームワークを提案する。
計算処理を再配置して入力位相を推し進めることで、レイテンシを大幅に削減する。
20文を超える長いプロンプトでは、応答遅延を最大93%削減できる。
論文 参考訳(メタデータ) (2024-06-20T13:52:30Z) - On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z) - SUBLLM: A Novel Efficient Architecture with Token Sequence Subsampling for LLM [24.65339628772433]
SUBLLMは、サブサンプリング、アップサンプリング、バイパスモジュールを組み込むことで、コアデコーダのみのフレームワークを拡張する革新的なアーキテクチャである。
トレーニング中、SUBLLMはスピードを26%向上し、GPU毎にメモリを10GB削減する。
推論では、スピードを最大37%向上し、1GPUあたりのメモリを1GB削減する。
論文 参考訳(メタデータ) (2024-06-03T16:43:04Z) - Efficient Prompt Tuning by Multi-Space Projection and Prompt Fusion [9.55994486328914]
プロンプトチューニングは、大規模パラメータを再訓練することなく、事前訓練された言語モデルを微調整する有望な方法である。
既存の方法は精度と効率のバランスをとるのが難しい。
より長い(厳密な)ソフトプロンプトは、一般的には、より(より悪い)正確さをもたらすが、より(少ない)トレーニング時間に費やされる。
マルチスペースプロジェクションとプロンプト融合による効率的なプロンプトチューニング法(EPT)を提案する。
論文 参考訳(メタデータ) (2024-05-19T06:43:12Z) - FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z) - Online Adaptation of Language Models with a Memory of Amortized Contexts [86.91360597169563]
MAC(Memory of Amortized Contexts)は、大規模言語モデルのための効率的かつ効果的なオンライン適応フレームワークである。
本稿では,新しい文書から情報を圧縮・抽出するメモリ拡張手法を提案する。
実験では,オンライン適応性能,時間,メモリ効率など,MACの複数の面での優位性を実証した。
論文 参考訳(メタデータ) (2024-03-07T08:34:57Z) - CliqueParcel: An Approach For Batching LLM Prompts That Jointly
Optimizes Efficiency And Faithfulness [13.554160815699435]
CliqueParcelは、推論プロセス中に大きな言語モデル(LLM)の効率を改善するように設計されている。
CliqueParcelは、広く認識されている8つのデータセットでテストされている。
この研究は推論効率に関する新しい洞察を提供し、有望なパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-02-17T22:37:17Z) - In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。
ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文 参考訳(メタデータ) (2023-07-13T17:59:21Z) - Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM
Inference with Transferable Prompt [96.24800696597707]
圧縮モデルにより,このトレードオフを最適化する新たな視点を導入する。
本稿では,圧縮されたモデルを学習プロセスに公開するソフトプロンプト学習法を提案する。
我々のソフトプロンプト戦略は8x圧縮LLaMA-7Bモデルの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-17T20:45:13Z) - Learning Performance-Improving Code Edits [107.21538852090208]
本稿では,大規模言語モデル(LLM)を高レベルプログラム最適化に適用するためのフレームワークを提案する。
まず、競争力のある77,000以上のC++プログラミングサブミッションペアによる、人間のプログラマによるパフォーマンス改善編集のデータセットをキュレートする。
提案手法は,検索をベースとした少数ショットプロンプトとチェーン・オブ・シンクレットを提案し,その微調整には,自己再生に基づく性能条件付き生成と合成データ拡張が含まれる。
論文 参考訳(メタデータ) (2023-02-15T18:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。