Fugu-MT 論文翻訳(概要): Online Adaptation of Language Models with a Memory of Amortized Contexts

論文の概要: Online Adaptation of Language Models with a Memory of Amortized Contexts

arxiv url: http://arxiv.org/abs/2403.04317v1
Date: Thu, 7 Mar 2024 08:34:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-08 14:32:02.752896
Title: Online Adaptation of Language Models with a Memory of Amortized Contexts
Title（参考訳）: amortized contexts を記憶した言語モデルのオンライン適応
Authors: Jihoon Tack, Jaehyung Kim, Eric Mitchell, Jinwoo Shin, Yee Whye Teh, Jonathan Richard Schwarz
Abstract要約: MAC(Memory of Amortized Contexts)は、大規模言語モデルのための効率的かつ効果的なオンライン適応フレームワークである。本稿では,新しい文書から情報を圧縮・抽出するメモリ拡張手法を提案する。実験では,オンライン適応性能,時間,メモリ効率など,MACの複数の面での優位性を実証した。
参考スコア（独自算出の注目度）: 86.91360597169563
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Due to the rapid generation and dissemination of information, large language models (LLMs) quickly run out of date despite enormous development costs. Due to this crucial need to keep models updated, online learning has emerged as a critical necessity when utilizing LLMs for real-world applications. However, given the ever-expanding corpus of unseen documents and the large parameter space of modern LLMs, efficient adaptation is essential. To address these challenges, we propose Memory of Amortized Contexts (MAC), an efficient and effective online adaptation framework for LLMs with strong knowledge retention. We propose an amortized feature extraction and memory-augmentation approach to compress and extract information from new documents into compact modulations stored in a memory bank. When answering questions, our model attends to and extracts relevant knowledge from this memory bank. To learn informative modulations in an efficient manner, we utilize amortization-based meta-learning, which substitutes the optimization process with a single forward pass of the encoder. Subsequently, we learn to choose from and aggregate selected documents into a single modulation by conditioning on the question, allowing us to adapt a frozen language model during test time without requiring further gradient updates. Our experiment demonstrates the superiority of MAC in multiple aspects, including online adaptation performance, time, and memory efficiency. Code is available at: https://github.com/jihoontack/MAC.
Abstract（参考訳）: 情報の発生と普及により、膨大な開発コストにもかかわらず、大規模言語モデル(LLM)は急速に時代遅れになった。モデルをアップデートする必要が生じたため、実世界のアプリケーションでllmを使用する場合、オンライン学習が重要な必要性として浮上した。しかし、未確認文書の絶え間ないコーパスと現代のLLMの大きなパラメータ空間を考えると、効率的な適応が不可欠である。これらの課題に対処するために,強力な知識保持を有するLLMのための効率的かつ効果的なオンライン適応フレームワークであるMAC(Memory of Amortized Contexts)を提案する。本稿では,メモリバンクに格納されたコンパクトな変調に新たな文書から情報を圧縮・抽出する,メモリ拡張手法を提案する。質問に答えるとき、私たちのモデルは、このメモリバンクから関連する知識を収集します。インフォメーション変調を効率的に学習するために,エンコーダの1回のフォワードパスで最適化プロセスを代用するamortization-based meta-learningを用いる。その後,選択した文書の選択と集約を条件付けによって単一の変調にすることで,さらなる勾配更新を必要とせずに,テスト時間中に凍結した言語モデルを適応させることができる。実験では,オンライン適応性能,時間,メモリ効率など,MACの複数の面での優位性を実証した。コードはhttps://github.com/jihoontack/mac.com/。

関連論文リスト

MemOS: A Memory OS for AI System [116.87568350346537]
大規模言語モデル(LLM)は、人工知能(AGI)にとって不可欠な基盤となっている。既存のモデルは、主に静的パラメータと短命なコンテキスト状態に依存しており、ユーザの好みを追跡したり、長い期間にわたって知識を更新する能力を制限する。 MemOSはメモリを管理可能なシステムリソースとして扱うメモリオペレーティングシステムである。
論文参考訳（メタデータ） (2025-07-04T17:21:46Z)
Leveraging Metamemory Mechanisms for Enhanced Data-Free Code Generation in LLMs [44.80420740455364]
M2WFは、大規模言語モデルのワンタイムコード生成を改善するためのフレームワークである。従来の方法とは異なり、キュレートされたデータへの依存を最小限に抑え、さまざまなコーディングシナリオに適応する。コードとフレームワークはGitHubとHuggingFaceで公開されている。
論文参考訳（メタデータ） (2025-01-14T07:16:43Z)
CMT: A Memory Compression Method for Continual Knowledge Learning of Large Language Models [22.93893181000535]
大規模言語モデル(LLM)は、データ、タスク、ユーザの好みの継続的な変更に適応する必要がある。本稿では,これらの課題に対処するため,圧縮記憶訓練(CMT)法を提案する。 CMTは、メモリバンクに格納される新しい文書から情報を圧縮して抽出する。これらの新しいドキュメントに関する問い合わせに答えると、モデルはこれらのドキュメントの記憶をメモリバンクから集約し、ユーザーの質問に答える。
論文参考訳（メタデータ） (2024-12-10T10:35:19Z)
CodeUnlearn: Amortized Zero-Shot Machine Unlearning in Language Models Using Discrete Concept [5.345828824625758]
コードブック機能とスパースオートエンコーダ(SAEs)を用いた新しいアンラーニング手法を提案する。ボトルネックを利用して、アクティベーション空間を分解し、情報の流れを規制することにより、モデルの性能を無関係なデータに保ちながら、ターゲットとなる情報を効率的に解き放つ。
論文参考訳（メタデータ） (2024-10-08T10:26:22Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-30T03:44:54Z)
MemLLM: Finetuning LLMs to Use An Explicit Read-Write Memory [49.96019697955383]
本稿では,構造化および明示的な読み書きメモリモジュールを統合することで,知識能力を向上させる新しい手法であるMemLLMを紹介する。実験の結果,MemLLMは言語モデリング全般,特に言語モデルにおいて,性能と解釈可能性を向上させることが示唆された。私たちは MemLLM を,メモリ拡張による LLM の基盤化と現実化に向けた重要なステップと捉えています。
論文参考訳（メタデータ） (2024-04-17T18:13:16Z)
CAMELoT: Towards Large Language Models with Training-Free Consolidated Associative Memory [38.429707659685974]
大規模言語モデル(LLM)は、メモリとランタイムのコストが高いため、長い入力シーケンスを扱うのに苦労する。本稿では,事前学習した(凍結した)注意に基づくLCMに再学習せずに結合可能な連想記憶モジュールを提案する。 CAMELoTと呼ばれるこのアーキテクチャは、128トークンの小さなコンテキストウィンドウでも優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2024-02-21T01:00:17Z)
Anchor-based Large Language Models [33.86392289481657]
本研究ではアンカーベースの自己アテンションネットワーク(AnSAN)とアンカーベースの推論戦略を利用するアンカーベースのLSM(AnLLM)を紹介する。 AnLLMも同様の精度を維持し、最大99%のキー/バリューキャッシュの削減、最大3.5倍の高速推論を実現している。
論文参考訳（メタデータ） (2024-02-12T12:48:02Z)
Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-31T03:35:59Z)
RET-LLM: Towards a General Read-Write Memory for Large Language Models [53.288356721954514]
RET-LLMは、大規模な言語モデルに一般的な読み書きメモリユニットを装備する新しいフレームワークである。デビッドソンのセマンティクス理論に触発され、三重項の形で知識を抽出し保存する。本フレームワークは,時間に基づく質問応答タスクの処理において,堅牢な性能を示す。
論文参考訳（メタデータ） (2023-05-23T17:53:38Z)
The Web Can Be Your Oyster for Improving Large Language Models [98.72358969495835]
大規模言語モデル(LLM)は、大量の世界の知識を符号化する。我々はLLMを検索エンジンを用いて大規模ウェブで拡張することを検討する。ウェブ上に拡張されたLLM UNIWEBを提案する。これは16の知識集約的なタスクに対して、統一されたテキスト・テキスト・フォーマットで訓練される。
論文参考訳（メタデータ） (2023-05-18T14:20:32Z)
Continual Variational Autoencoder Learning via Online Cooperative Memorization [11.540150938141034]
変分オートエンコーダ(VAE)は連続的な学習分類タスクでうまく使われている。しかし、連続学習で学んだクラスやデータベースに対応する仕様で画像を生成する能力はよく理解されていない。我々は、CLを動的最適輸送問題として定式化する新しい理論フレームワークを開発する。次に,新しいメモリバッファリング手法,すなわちオンライン協調記憶(OCM)フレームワークを提案する。
論文参考訳（メタデータ） (2022-07-20T18:19:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。