論文の概要: MemoryPrompt: A Light Wrapper to Improve Context Tracking in Pre-trained
Language Models
- arxiv url: http://arxiv.org/abs/2402.15268v1
- Date: Fri, 23 Feb 2024 11:30:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 14:53:02.059946
- Title: MemoryPrompt: A Light Wrapper to Improve Context Tracking in Pre-trained
Language Models
- Title(参考訳): MemoryPrompt: トレーニング済み言語モデルのコンテキストトラッキングを改善するライトラッパー
- Authors: Nathana\"el Carraz Rakotonirina, Marco Baroni
- Abstract要約: トランスフォーマーベースの言語モデル(LM)は、大規模でハードコードされた入力ウィンドウを通してコンテキスト情報を追跡する。
メモリプロンプト(MemoryPrompt)は、LMを小さな補助的リカレントネットワークで補完し、その正規入力をベクトル列でプレフィックスすることでLMに情報伝達する手法である。
複数のファクト更新を追跡するLMの能力を調査するために設計されたタスクでテストされた MemoryPromptの拡張されたLM は、完全な入力履歴にアクセス可能なより大きなLMよりも優れている。
- 参考スコア(独自算出の注目度): 10.783764497590473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based language models (LMs) track contextual information through
large, hard-coded input windows. We introduce MemoryPrompt, a leaner approach
in which the LM is complemented by a small auxiliary recurrent network that
passes information to the LM by prefixing its regular input with a sequence of
vectors, akin to soft prompts, without requiring LM finetuning. Tested on a
task designed to probe a LM's ability to keep track of multiple fact updates, a
MemoryPrompt-augmented LM outperforms much larger LMs that have access to the
full input history. We also test MemoryPrompt on a long-distance dialogue
dataset, where its performance is comparable to that of a model conditioned on
the entire conversation history. In both experiments we also observe that,
unlike full-finetuning approaches, MemoryPrompt does not suffer from
catastrophic forgetting when adapted to new tasks, thus not disrupting the
generalist capabilities of the underlying LM.
- Abstract(参考訳): トランスフォーマーベースの言語モデル(lms)は、大きなハードコード入力ウィンドウを通じてコンテキスト情報を追跡する。
本稿では,LM の微細化を必要とせず,その正規入力をソフトプロンプトに類似した一連のベクトルでプレフィックスすることで,LM に情報を伝える小さな補助的再帰ネットワークによって LM を補完する MemoryPrompt を提案する。
複数のファクト更新を追跡するlmの能力を調べるために設計されたタスクでテストされたmemoryprompt-augmented lmは、完全な入力履歴にアクセス可能なずっと大きなlmsよりも優れている。
また,会話履歴全体に基づくモデルと同等の性能を持つ長距離対話データセット上でメモリプロンプトをテストした。
どちらの実験においても、フルファインタニングアプローチとは異なり、MemoryPromptは新しいタスクに適応しても破滅的な忘れを伴わないため、基盤となるLMの一般化能力を損なうことはない。
関連論文リスト
- Reliable, Adaptable, and Attributable Language Models with Retrieval [144.26890121729514]
パラメトリック言語モデル(LM)は大量のWebデータに基づいて訓練されている。
幻覚、新しいデータ分布への適応の困難、妥当性の欠如など、実践的な課題に直面している。
我々は、次世代のLMとしてパラメトリックLMを置き換えるための検索拡張LMを提唱する。
論文 参考訳(メタデータ) (2024-03-05T18:22:33Z) - Prompt Highlighter: Interactive Control for Multi-Modal LLMs [54.53324095171722]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。
本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。
推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文 参考訳(メタデータ) (2023-12-07T13:53:29Z) - PEMA: Plug-in External Memory Adaptation for Language Models [7.442935685802593]
プレトレーニング言語モデル (PLM) は、様々な下流のNLPタスクで顕著なパフォーマンスを示している。
メモリおよびトレーニング計算の観点から、大規模言語モデルの事前学習のリソース要件は、重大な課題である。
本稿では,PEMA(Plug-in external Memory Adaptation)を紹介する。
全重量を必要とせずに微調整 PLM を効率的に調整できるPEFT (Efficient Fine-Tuning) アプローチ
論文 参考訳(メタデータ) (2023-11-14T23:20:51Z) - In-context Autoencoder for Context Compression in a Large Language Model [74.9807417009054]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。
ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文 参考訳(メタデータ) (2023-07-13T17:59:21Z) - LeTI: Learning to Generate from Textual Interactions [59.79240825328176]
本稿では,テキストインタラクション(LeTI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックによって出力中のエラーをピンポイントし,説明する。
本研究は,自然言語命令に応答してコード片を生成するコード生成タスクに焦点をあてる。
LeTIは、LMの目的を用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいてモデルを反復的に微調整する。
論文 参考訳(メタデータ) (2023-05-17T15:53:31Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z) - Demonstrate-Search-Predict: Composing retrieval and language models for
knowledge-intensive NLP [77.817293104436]
本稿では,LMとRMの間の洗練されたパイプラインにおいて,自然言語テキストを渡すことに依存するフレームワークを提案する。
我々は、オープンドメイン、マルチホップ、会話設定で質問に答えるための新しいDSPプログラムを作成した。
論文 参考訳(メタデータ) (2022-12-28T18:52:44Z) - Prompt Injection: Parameterization of Fixed Inputs [15.85463693534699]
Prompt Injection (PI)は、言語モデル(LM)のパラメータにプロンプトを注入する新しい定式化である。
PIは、従来のアプローチよりもFLOPの合計で最大280倍効率がよい。
論文 参考訳(メタデータ) (2022-05-31T08:43:07Z) - Detecting Unintended Memorization in Language-Model-Fused ASR [10.079200692649462]
LMトレーニングデータからランダムテキストシーケンス(カナリアと呼ぶ)の記憶を検出するためのフレームワークを提案する。
In a production-grade Conformer RNN-T E2E model fused with a Transformer LM, we show that detected memorization of canary from the LM training data of 300M example。
また,プライバシ保護を動機として,拡張段階のLMトレーニングを実施すれば,そのような記憶が大幅に減少することを示す。
論文 参考訳(メタデータ) (2022-04-20T16:35:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。