論文の概要: MemoryPrompt: A Light Wrapper to Improve Context Tracking in Pre-trained
Language Models
- arxiv url: http://arxiv.org/abs/2402.15268v1
- Date: Fri, 23 Feb 2024 11:30:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 14:53:02.059946
- Title: MemoryPrompt: A Light Wrapper to Improve Context Tracking in Pre-trained
Language Models
- Title(参考訳): MemoryPrompt: トレーニング済み言語モデルのコンテキストトラッキングを改善するライトラッパー
- Authors: Nathana\"el Carraz Rakotonirina, Marco Baroni
- Abstract要約: トランスフォーマーベースの言語モデル(LM)は、大規模でハードコードされた入力ウィンドウを通してコンテキスト情報を追跡する。
メモリプロンプト(MemoryPrompt)は、LMを小さな補助的リカレントネットワークで補完し、その正規入力をベクトル列でプレフィックスすることでLMに情報伝達する手法である。
複数のファクト更新を追跡するLMの能力を調査するために設計されたタスクでテストされた MemoryPromptの拡張されたLM は、完全な入力履歴にアクセス可能なより大きなLMよりも優れている。
- 参考スコア(独自算出の注目度): 10.783764497590473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based language models (LMs) track contextual information through
large, hard-coded input windows. We introduce MemoryPrompt, a leaner approach
in which the LM is complemented by a small auxiliary recurrent network that
passes information to the LM by prefixing its regular input with a sequence of
vectors, akin to soft prompts, without requiring LM finetuning. Tested on a
task designed to probe a LM's ability to keep track of multiple fact updates, a
MemoryPrompt-augmented LM outperforms much larger LMs that have access to the
full input history. We also test MemoryPrompt on a long-distance dialogue
dataset, where its performance is comparable to that of a model conditioned on
the entire conversation history. In both experiments we also observe that,
unlike full-finetuning approaches, MemoryPrompt does not suffer from
catastrophic forgetting when adapted to new tasks, thus not disrupting the
generalist capabilities of the underlying LM.
- Abstract(参考訳): トランスフォーマーベースの言語モデル(lms)は、大きなハードコード入力ウィンドウを通じてコンテキスト情報を追跡する。
本稿では,LM の微細化を必要とせず,その正規入力をソフトプロンプトに類似した一連のベクトルでプレフィックスすることで,LM に情報を伝える小さな補助的再帰ネットワークによって LM を補完する MemoryPrompt を提案する。
複数のファクト更新を追跡するlmの能力を調べるために設計されたタスクでテストされたmemoryprompt-augmented lmは、完全な入力履歴にアクセス可能なずっと大きなlmsよりも優れている。
また,会話履歴全体に基づくモデルと同等の性能を持つ長距離対話データセット上でメモリプロンプトをテストした。
どちらの実験においても、フルファインタニングアプローチとは異なり、MemoryPromptは新しいタスクに適応しても破滅的な忘れを伴わないため、基盤となるLMの一般化能力を損なうことはない。
関連論文リスト
- PIP-MM: Pre-Integrating Prompt Information into Visual Encoding via Existing MLLM Structures [5.513631883813244]
既存のMLLMのモジュールを用いて,textbfPre-textbfIntegratestextbfPromptを視覚符号化プロセスに組み込むフレームワークを提案する。
我々のモデルは、視覚トークンの半分を減らしても優れた世代を維持している。
論文 参考訳(メタデータ) (2024-10-30T15:05:17Z) - Memory-Space Visual Prompting for Efficient Vision-Language Fine-Tuning [59.13366859237086]
大規模視覚言語(VL)モデルを効率的に構築するための現在のソリューションは、2段階のパラダイムに従う。
視覚情報に関連するタスクに対処する際の言語モデルを容易にする追加知識として視覚的プロンプトを考察する。
本稿では,視覚的知識注入のためのFFNの重み付けにより視覚的プロンプトを記憶する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-09T08:23:20Z) - MemLLM: Finetuning LLMs to Use An Explicit Read-Write Memory [49.96019697955383]
本稿では,構造化および明示的な読み書きメモリモジュールを統合することで,知識能力を向上させる新しい手法であるMemLLMを紹介する。
実験の結果,MemLLMは言語モデリング全般,特に言語モデルにおいて,性能と解釈可能性を向上させることが示唆された。
私たちは MemLLM を,メモリ拡張による LLM の基盤化と現実化に向けた重要なステップと捉えています。
論文 参考訳(メタデータ) (2024-04-17T18:13:16Z) - In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。
ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文 参考訳(メタデータ) (2023-07-13T17:59:21Z) - LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。
私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。
LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文 参考訳(メタデータ) (2023-05-17T15:53:31Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z) - Demonstrate-Search-Predict: Composing retrieval and language models for
knowledge-intensive NLP [77.817293104436]
本稿では,LMとRMの間の洗練されたパイプラインにおいて,自然言語テキストを渡すことに依存するフレームワークを提案する。
我々は、オープンドメイン、マルチホップ、会話設定で質問に答えるための新しいDSPプログラムを作成した。
論文 参考訳(メタデータ) (2022-12-28T18:52:44Z) - Detecting Unintended Memorization in Language-Model-Fused ASR [10.079200692649462]
LMトレーニングデータからランダムテキストシーケンス(カナリアと呼ぶ)の記憶を検出するためのフレームワークを提案する。
In a production-grade Conformer RNN-T E2E model fused with a Transformer LM, we show that detected memorization of canary from the LM training data of 300M example。
また,プライバシ保護を動機として,拡張段階のLMトレーニングを実施すれば,そのような記憶が大幅に減少することを示す。
論文 参考訳(メタデータ) (2022-04-20T16:35:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。