論文の概要: Prometheus Mind: Retrofitting Memory to Frozen Language Models
- arxiv url: http://arxiv.org/abs/2601.15324v2
- Date: Fri, 23 Jan 2026 14:53:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.33024
- Title: Prometheus Mind: Retrofitting Memory to Frozen Language Models
- Title(参考訳): Prometheus Mind - 凍結した言語モデルにメモリを再適合させる
- Authors: Mark Wind,
- Abstract要約: Prometheus Mindは、11個のモジュールアダプタ(530MB、7%オーバーヘッド)を使用して、凍結したQwen3-4Bにメモリを適合させる
ラベル付きデータなしで最小ペアで意味的な方向を求めるコントラスト指向探索(CDD)を開発した。
Prometheus-132 (132例)では、クリーン入力に対する94.4%の検索が達成されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adding memory to pretrained language models typically requires architectural changes or weight modification. We present Prometheus Mind, which retrofits memory to a frozen Qwen3-4B using 11 modular adapters (530MB, 7% overhead) -- fully reversible by removing the adapters. Building this system required solving four problems: (1) Extraction -- we develop Contrastive Direction Discovery (CDD), which finds semantic directions via minimal pairs without labeled data. (2) Training -- end-to-end optimization collapses; stage-wise training of each adapter on simple proxy tasks succeeds. (3) Injection -- learned encoders fail to generalize; we find that lm_head-weight rows already provide the mapping we need, requiring no training. (4) Hidden state collapse -- transformers make ``wife'' and ``brother'' 0.98+ similar; we train projections to recover distinction (0.98 $\rightarrow$ 0.09). On PrometheusExtract-132 (132 cases), the system achieves 94.4% retrieval on clean inputs (n=54, 95% CI: [84.9%, 98.1%]), degrading to 19.4% on informal inputs with ellipsis, filler words, or implicit subjects (n=36). The primary bottleneck is relation classification (47.3% accuracy), responsible for most extraction errors.
- Abstract(参考訳): 事前訓練された言語モデルにメモリを追加するには、アーキテクチャの変更や重み付けが必要になる。
我々は,11個のモジュールアダプタ(530MB,7%のオーバーヘッド)を使用して,凍結したQwen3-4Bにメモリを適合させるPrometheus Mindを提案する。このシステムを構築するには,(1)抽出 – ラベル付きデータのない最小ペアによるセマンティックな方向を見つけるコントラスト指向発見(CDD)の開発という,4つの問題を解決する必要があった。
2) トレーニング -- エンドツーエンドの最適化が崩壊する。
(3) インジェクション -- 学習したエンコーダは一般化に失敗する。lm_head-weight 行は、既に必要なマッピングを提供しており、トレーニングを必要としない。
(4) 隠れ状態の崩壊 -- トランスフォーマーは ``wife'' と ``brother'' 0.98+ と似ている; 区別を取り戻すために投影を訓練する(0.98$\rightarrow$ 0.09)。
Prometheus Extract-132 (132例)では、クリーン入力の94.4%(n=54, 95% CI: [84.9%, 98.1%])を検索し、エロプシス、フィラーワード、暗黙の被験者の19.4%まで低下させる(n=36)。
主なボトルネックは関係分類(47.3%の精度)であり、ほとんどの抽出誤差の原因となっている。
関連論文リスト
- SMART SLM: Structured Memory and Reasoning Transformer, A Small Language Model for Accurate Document Assistance [0.34376560669160394]
SMART(Structured Memory and Reasoning Transformer)はその処理を階層的アプローチを用いて構成する。
全SMARTモデルは45.51Mパラメータを使用し、GPT-2 (124M) より64%、BERT (133M) より69%少ない。
論文 参考訳(メタデータ) (2025-12-24T16:59:04Z) - SER-Diff: Synthetic Error Replay Diffusion for Incremental Brain Tumor Segmentation [0.0]
SER-Diff(Synthetic Error Replay Diffusion)を提案する。
SER-Diffは破滅的な忘れを緩和し、進化するデータセット間でより正確で解剖学的に一貫性のあるセグメンテーションを提供する。
論文 参考訳(メタデータ) (2025-10-06T21:53:45Z) - Erasing Without Remembering: Implicit Knowledge Forgetting in Large Language Models [81.62767292169225]
我々は,その一般化に着目して,大規模言語モデルにおける知識の忘れについて検討する。
確率摂動に基づく新しいアンラーニングパラダイムであるPerMUを提案する。
TOFU、Harry Potter、ZsRE、WMDP、MUSEなど、さまざまなデータセットで実験が行われている。
論文 参考訳(メタデータ) (2025-02-27T11:03:33Z) - CLOVER: Cross-Layer Orthogonal Vectors Pruning and Fine-Tuning [24.697865155104644]
CLOVER(Cross-Layer Orthogonal Vectors)は、注目層を低ランク分解の集合として扱う新しいアプローチである。
我々は、GPT-2 XL、DeepSeek-V2-Lite、Whisper-Large-v3、Stable Diffusion XL、LLaMA-3.2-11B-Visionなど、様々なモデルに適用する。
論文 参考訳(メタデータ) (2024-11-26T13:34:02Z) - GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [133.45193150403537]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。
本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。
私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文 参考訳(メタデータ) (2024-03-06T07:29:57Z) - Integral Continual Learning Along the Tangent Vector Field of Tasks [112.02761912526734]
本稿では,特殊データセットからの情報を段階的に組み込んだ軽量連続学習手法を提案する。
ソースデータセットの0.4%まで小さく、小さな固定サイズのメモリバッファを保持しており、単純な再サンプリングによって更新される。
提案手法は,異なるデータセットに対して,様々なバッファサイズで高い性能を実現する。
論文 参考訳(メタデータ) (2022-11-23T16:49:26Z) - Compressing 1D Time-Channel Separable Convolutions using Sparse Random
Ternary Matrices [65.4388266814055]
1次元時間チャネル分離可能な畳み込みの1x1-畳み込みを、定数でスパースな乱数三元行列で-1,0,+1$の重みで置き換える。
Google Speech Commands v1のコマンド認識のために、最新の精度を同じネットワークサイズで97.21%$から97.41%$に改善します。
librispeech上での音声認識では、トレーニングすべき重みの数は半分になり、浮動小数点ベースラインの単語誤り率の約1%を犠牲にします。
論文 参考訳(メタデータ) (2021-03-31T15:09:20Z) - Harnessing Geometric Constraints from Auxiliary Labels to Improve
Embedding Functions for One-Shot Learning [21.445455835823626]
本稿では,手動で注釈付きまたは自動検出された補助ラベルを用いて深層モデルで学習した埋め込み空間に新しい幾何学的制約を導入する。
提案されたTL+PDP+FBV損失(97.5, 72.6, 93.1, 70.5%)では, 99.7, 86.2, 99.4, 79.3%の検証精度が向上した。
論文 参考訳(メタデータ) (2021-03-05T18:27:38Z) - TinyTL: Reduce Activations, Not Trainable Parameters for Efficient
On-Device Learning [78.80707950262214]
デバイス上での学習により、エッジデバイスはAIモデルを新しいデータに継続的に適応できる。
既存の作業は、トレーニング可能なパラメータの数を減らすことで、この問題を解決する。
メモリ効率の高いオンデバイス学習のためのTiny-Transfer-Learning(TinyTL)を提案する。
論文 参考訳(メタデータ) (2020-07-22T18:39:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。