論文の概要: Memory Mosaics
- arxiv url: http://arxiv.org/abs/2405.06394v2
- Date: Mon, 13 May 2024 20:27:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 11:02:58.281967
- Title: Memory Mosaics
- Title(参考訳): メモリモザイク
- Authors: Jianyu Zhang, Niklas Nolte, Ranajoy Sadhukhan, Beidi Chen, Léon Bottou,
- Abstract要約: トランスと同様に、メモリモザイクは構成能力とコンテキスト内学習能力を持っている。
おもちゃの例でこれらの能力を実証し、中規模言語モデリングタスクにおけるトランスフォーマーよりもメモリモザイクが優れていることを示す。
- 参考スコア(独自算出の注目度): 16.93648202185497
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Memory Mosaics are networks of associative memories working in concert to achieve a prediction task of interest. Like transformers, memory mosaics possess compositional capabilities and in-context learning capabilities. Unlike transformers, memory mosaics achieve these capabilities in comparatively transparent ways. We demonstrate these capabilities on toy examples and we also show that memory mosaics perform as well or better than transformers on medium-scale language modeling tasks.
- Abstract(参考訳): メモリモザイク(Memory Mosaics)は、関心の予測タスクを達成するために協力して働く連想記憶ネットワークである。
トランスと同様に、メモリモザイクは構成能力とコンテキスト内学習能力を持っている。
トランスとは異なり、メモリモザイクは比較的透過的な方法でこれらの能力を達成する。
これらの機能をおもちゃの例で示すとともに、中規模言語モデリングタスクにおけるトランスフォーマーよりもメモリモザイクが優れていることを示す。
関連論文リスト
- MeMo: Towards Language Models with Associative Memory Mechanisms [1.5091666314973797]
本稿では,階層化連想記憶におけるトークン列を明示的に記憶する言語モデリングの新しいアーキテクチャであるMeMoを紹介する。
MeMoは透過性と、テキストの忘れを含むモデル編集の可能性を提供する。
論文 参考訳(メタデータ) (2025-02-18T13:39:22Z) - MatIR: A Hybrid Mamba-Transformer Image Restoration Model [95.17418386046054]
そこで我々は,MatIRと呼ばれるMamba-Transformerハイブリッド画像復元モデルを提案する。
MatIRはTransformer層とMamba層のブロックをクロスサイクルして特徴を抽出する。
Mambaモジュールでは、4つのスキャンパスに沿って横断するImage Inpainting State Space (IRSS)モジュールを導入する。
論文 参考訳(メタデータ) (2025-01-30T14:55:40Z) - Memory Layers at Scale [67.00854080570979]
この研究はメモリ層を概念実証以上のものにし、現代の規模でその有用性を証明している。
ダウンストリームタスクでは、改善されたメモリ層で強化された言語モデルは、予算の2倍以上の高密度モデルよりも優れており、計算とパラメータの両方にマッチする場合の熟練モデルの混合も優れている。
最大128Bのメモリパラメータを持つスケーリング法則を1兆トークンまで事前訓練し,最大8Bパラメータを持つベースモデルと比較した,完全な並列化可能なメモリレイヤの実装を提供する。
論文 参考訳(メタデータ) (2024-12-12T23:56:57Z) - Understanding Factual Recall in Transformers via Associative Memories [55.93756571457904]
浅層変圧器は、連想記憶の組み合わせを用いて、ほぼ最適な記憶能力を得ることができることを示す。
本研究では, 1層に1つの自己注意を持つ変圧器にパラメータを付加することにより, ファクトリコールタスクにおいて100%の精度が得られることを示す。
論文 参考訳(メタデータ) (2024-12-09T14:48:14Z) - B'MOJO: Hybrid State Space Realizations of Foundation Models with Eidetic and Fading Memory [91.81390121042192]
我々はB'MOJOと呼ばれるモデル群を開発し、構成可能なモジュール内で理想的メモリと暗黙的メモリをシームレスに結合する。
B'MOJOのイデオティックメモリとフェードメモリを変調する能力は、32Kトークンまでテストされた長いシーケンスの推論をより良くする。
論文 参考訳(メタデータ) (2024-07-08T18:41:01Z) - Do LLMs dream of elephants (when told not to)? Latent concept association and associative memory in transformers [40.964584197528175]
LLM(Large Language Models)は、事実を保存およびリコールする能力を持つ。
LLMは、コンテキスト内の特定のトークンが事実を取得する手がかりとなる連想記憶モデルのように振る舞う。
論文 参考訳(メタデータ) (2024-06-26T14:49:54Z) - MemLLM: Finetuning LLMs to Use An Explicit Read-Write Memory [49.96019697955383]
本稿では,構造化および明示的な読み書きメモリモジュールを統合することで,大規模言語モデル(LLM)の拡張手法であるMemLLMを紹介する。
実験の結果, 言語モデリング, 特に知識集約型タスクにおいて, MemLLMはLLMの性能と解釈可能性を向上させることが示唆された。
論文 参考訳(メタデータ) (2024-04-17T18:13:16Z) - Cached Transformers: Improving Transformers with Differentiable Memory
Cache [71.28188777209034]
この作業では、Cached Transformerと呼ばれる新しいTransformerモデルが導入されている。
Gated Recurrent Cached (GRC) を使用して、トークンの異なるメモリキャッシュで自己アテンションメカニズムを拡張する。
論文 参考訳(メタデータ) (2023-12-20T03:30:51Z) - Think Before You Act: Decision Transformers with Working Memory [44.18926449252084]
決定変換器に基づく意思決定エージェントは、複数のタスクにまたがる一般化能力を示している。
この非効率性は、モデルがトレーニングを通してパラメータの振る舞いを記憶する忘れ現象に起因していると我々は主張する。
ダウンストリームタスクの情報を格納、ブレンド、検索するためのワーキングメモリモジュールを提案する。
論文 参考訳(メタデータ) (2023-05-24T01:20:22Z) - End-to-End Egospheric Spatial Memory [32.42361470456194]
Egospheric Spatial Memory (ESM) と呼ばれるパラメータフリーのモジュールを提案し、エージェントの周りの自我圏内のメモリをエンコードする。
ESMは模倣あるいは強化学習を通じてエンドツーエンドでトレーニングすることができる。
ScanNetデータセット上でのセマンティックセグメンテーションへの適用を示す。ESMは画像レベルとマップレベルの推論モダリティを自然に組み合わせている。
論文 参考訳(メタデータ) (2021-02-15T18:59:07Z) - Memory Transformer [0.31406146587437894]
トランスフォーマーベースのモデルは、多くの自然言語処理タスクにおいて最先端の結果を得た。
メモリ拡張ニューラルネットワーク(MANN)は、従来のニューラルネットワークを拡張し、汎用メモリで表現する。
我々は,これらのメモリ拡張トランスフォーマーを評価し,メモリの存在がモデル性能と正の相関関係があることを実証した。
論文 参考訳(メタデータ) (2020-06-20T09:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。