論文の概要: Exploring the Latent Capacity of LLMs for One-Step Text Generation
- arxiv url: http://arxiv.org/abs/2505.21189v1
- Date: Tue, 27 May 2025 13:39:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.680309
- Title: Exploring the Latent Capacity of LLMs for One-Step Text Generation
- Title(参考訳): 1ステップテキスト生成のためのLCMの潜時容量探索
- Authors: Gleb Mezentsev, Ivan Oseledets,
- Abstract要約: 大きな言語モデル(LLM)は驚くほど長いテキストを再構築することができる。
凍結したLLMは1つのフォワードパスで数百の正確なトークンを生成することができることを示す。
- 参考スコア(独自算出の注目度): 4.347494885647007
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A recent study showed that large language models (LLMs) can reconstruct surprisingly long texts - up to thousands of tokens - via autoregressive generation from just one specially trained input embedding. In this work, we explore whether such reconstruction is possible without autoregression. We show that frozen LLMs can generate hundreds of accurate tokens in just one forward pass, when provided with only two learned embeddings. This reveals a surprising and underexplored capability of LLMs - multi-token generation without iterative decoding. We investigate the behaviour of these embeddings and provide insight into the type of information they encode. We also empirically show that although these representations are not unique for a given text, they form connected and local regions in embedding space - a property that suggests the potential of learning a dedicated encoder into that space.
- Abstract(参考訳): 最近の研究によると、大きな言語モデル(LLM)は、特別な訓練を受けた入力埋め込みを1つだけで自動回帰生成することで、驚くほど長いテキスト(最大数千のトークン)を再構築できる。
本研究では,このような再建が自己回帰なしで可能かどうかを考察する。
凍結LDMは2つの学習埋め込みしか持たない場合、たった1つの前方通過で数百の正確なトークンを生成することができることを示す。
LLM - 反復的復号化のないマルチトークン生成。
これらの埋め込みの振る舞いを調査し、エンコードする情報のタイプについて考察する。
また、これらの表現は与えられたテキストに固有のものではないが、埋め込み空間において接続された局所領域を形成し、その空間に専用エンコーダを学習する可能性を示唆する性質を実証的に示す。
関連論文リスト
- Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens [66.02261367232256]
MLLM(Multimodal Large Language Models)は、視覚的理解と生成を統一することを目的としている。
既存のアプローチは空間的トークンに依存しており、画像パッチは空間的順序に応じてエンコードされ配置される。
本稿では,個別の視覚トークンを学習するために拡散時間ステップを再構成し,適切な視覚言語を構築する。
論文 参考訳(メタデータ) (2025-04-20T16:14:28Z) - Information-Guided Identification of Training Data Imprint in (Proprietary) Large Language Models [52.439289085318634]
情報誘導プローブを用いて,プロプライエタリな大規模言語モデル (LLM) で知られているトレーニングデータを識別する方法を示す。
我々の研究は、重要な観察の上に成り立っている: 高次数テキストパスは、暗記プローブにとって良い検索材料である。
論文 参考訳(メタデータ) (2025-03-15T10:19:15Z) - Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキスト上に既存のテキスト埋め込みモデルを微調整することで、優れた分類精度が得られることが判明した。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - CUTE: Measuring LLMs' Understanding of Their Tokens [54.70665106141121]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示す。
LLMはどの程度の間、正書法情報を学ぶことができるのか?
LLMの正書法知識をテストするために設計されたタスクの集合を特徴とする新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2024-09-23T18:27:03Z) - Identifying the Source of Generation for Large Language Models [21.919661430250798]
LLM(Large Language Model)は、複数の文書ソースからのテキストを記憶する言語である。
LLMは生成されたコンテンツに関する文書情報を提供できない。
この研究は、デコードステップでトークンレベルのソース識別を導入する。
論文 参考訳(メタデータ) (2024-07-05T08:52:15Z) - A Text is Worth Several Tokens: Text Embedding from LLMs Secretly Aligns Well with The Key Tokens [20.37803751979975]
テキストを大きな言語モデルベースの埋め込み器に入力すると、得られたテキストの埋め込みは入力テキストのキートークンと一致させることができる。
この現象は普遍的であり,モデルアーキテクチャ,トレーニング戦略,埋め込み手法の影響を受けないことを示す。
論文 参考訳(メタデータ) (2024-06-25T08:55:12Z) - Peering into the Mind of Language Models: An Approach for Attribution in Contextual Question Answering [9.86691461253151]
大規模言語モデル(LLM)の隠れ状態表現を利用した文脈質問応答における帰属手法を提案する。
提案手法は,より詳細な属性を提供し,生成した回答の質を保ちながら,広範囲なモデル再訓練および検索モデルオーバーヘッドの必要性を回避している。
本稿では,LLM世代に対するトークンレベルのアノテーションを文脈質問応答設定に有する属性データセットであるVerifiability-granularを提案する。
論文 参考訳(メタデータ) (2024-05-28T09:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。