論文の概要: Memory Tokens: Large Language Models Can Generate Reversible Sentence Embeddings
- arxiv url: http://arxiv.org/abs/2506.15001v1
- Date: Tue, 17 Jun 2025 22:13:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.496191
- Title: Memory Tokens: Large Language Models Can Generate Reversible Sentence Embeddings
- Title(参考訳): メモリトークン:大きな言語モデルは可逆的な文の埋め込みを生成することができる
- Authors: Ignacio Sastre, Aiala Rosá,
- Abstract要約: 可逆的な文の埋め込みにより、LLMはモデルの重みを変更することなく、元のテキストを正確に再構築することができる。
我々は、この現象を、英語とスペイン語のデータセット、約240トークンのシーケンス、100Mから8Bパラメータのモデルスケールで評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we observe an interesting phenomenon: it is possible to generate reversible sentence embeddings that allow an LLM to reconstruct the original text exactly, without modifying the model's weights. This is achieved by introducing a special memory token, whose embedding is optimized through training on a fixed sequence. When prompted with this embedding, the model reconstructs the fixed sequence exactly. We evaluate this phenomenon across English and Spanish datasets, sequences of up to approximately 240 tokens, and model scales ranging from 100M to 8B parameters. Notably, Llama 3.1 8B successfully reconstructs all tested sequences. Our findings highlight an interesting capability of LLMs and suggest potential applications in memory-based retrieval, compression, and controlled text generation.
- Abstract(参考訳): 本研究では,LLMがモデルの重みを変更することなく,元のテキストを正確に再構築できる可逆的な文埋め込みを生成することができる,興味深い現象を観察する。
これは、固定シーケンスのトレーニングを通じて、埋め込みを最適化する特別なメモリトークンを導入することで実現される。
この埋め込みで誘導されると、モデルは固定シーケンスを正確に再構築する。
我々は、この現象を、英語とスペイン語のデータセット、約240トークンのシーケンス、100Mから8Bパラメータのモデルスケールで評価した。
特に、Llama 3.1 8Bは試験された全ての配列の再構築に成功した。
本研究は, LLMの興味深い機能と, メモリベースの検索, 圧縮, 制御されたテキスト生成における潜在的な応用を示唆するものである。
関連論文リスト
- Exploring the Latent Capacity of LLMs for One-Step Text Generation [4.347494885647007]
大きな言語モデル(LLM)は驚くほど長いテキストを再構築することができる。
凍結したLLMは1つのフォワードパスで数百の正確なトークンを生成することができることを示す。
論文 参考訳(メタデータ) (2025-05-27T13:39:24Z) - Understanding the Repeat Curse in Large Language Models from a Feature Perspective [10.413608338398785]
大規模言語モデル(LLM)は、しばしば反復的なテキスト生成に悩まされる。
本稿では,Repeat Curse を誘導・解析するための新しい手法 "Duplicatus Charm" を提案する。
論文 参考訳(メタデータ) (2025-04-19T07:53:37Z) - CAMELoT: Towards Large Language Models with Training-Free Consolidated
Associative Memory [38.429707659685974]
大規模言語モデル(LLM)は、メモリとランタイムのコストが高いため、長い入力シーケンスを扱うのに苦労する。
本稿では,事前学習した(凍結した)注意に基づくLCMに再学習せずに結合可能な連想記憶モジュールを提案する。
CAMELoTと呼ばれるこのアーキテクチャは、128トークンの小さなコンテキストウィンドウでも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-21T01:00:17Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - REPLUG: Retrieval-Augmented Black-Box Language Models [101.60145719119373]
REPLUGは、言語モデル(LM)をブラックボックスとして扱い、調整可能な検索モデルで拡張する検索拡張言語モデリングフレームワークである。
その結果,REPLUG は言語モデリングにおける GPT-3 (175B) の性能を6.3%向上させるとともに,5ショットMMLU における Codex の性能を5.1%向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-30T04:18:09Z) - Pre-training via Paraphrasing [96.79972492585112]
教師なし多言語パラフレージング目的を用いて学習した,事前学習されたシーケンス・ツー・シーケンスモデルであるMARGEを紹介する。
ランダムな初期化のみを前提として,検索と再構築を共同で行うことができることを示す。
例えば、追加のタスク固有のトレーニングがなければ、文書翻訳のBLEUスコアは最大35.8に達する。
論文 参考訳(メタデータ) (2020-06-26T14:43:43Z) - Memory Transformer [0.31406146587437894]
トランスフォーマーベースのモデルは、多くの自然言語処理タスクにおいて最先端の結果を得た。
メモリ拡張ニューラルネットワーク(MANN)は、従来のニューラルネットワークを拡張し、汎用メモリで表現する。
我々は,これらのメモリ拡張トランスフォーマーを評価し,メモリの存在がモデル性能と正の相関関係があることを実証した。
論文 参考訳(メタデータ) (2020-06-20T09:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。