論文の概要: Rep2Text: Decoding Full Text from a Single LLM Token Representation
- arxiv url: http://arxiv.org/abs/2511.06571v1
- Date: Sun, 09 Nov 2025 23:18:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.005845
- Title: Rep2Text: Decoding Full Text from a Single LLM Token Representation
- Title(参考訳): Rep2Text: 単一のLLMトークン表現から完全なテキストをデコードする
- Authors: Haiyan Zhao, Zirui He, Fan Yang, Ali Payani, Mengnan Du,
- Abstract要約: 本稿では,最後の記述から全文を復号化するための新しいフレームワークを提案する。
Rep2Textはトレーニング可能なアダプタを使用し、ターゲットモデルの内部表現をデコード言語モデルの埋め込み空間に投影する。
- 参考スコア(独自算出の注目度): 38.62008454909388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have achieved remarkable progress across diverse tasks, yet their internal mechanisms remain largely opaque. In this work, we address a fundamental question: to what extent can the original input text be recovered from a single last-token representation within an LLM? We propose Rep2Text, a novel framework for decoding full text from last-token representations. Rep2Text employs a trainable adapter that projects a target model's internal representations into the embedding space of a decoding language model, which then autoregressively reconstructs the input text. Experiments on various model combinations (Llama-3.1-8B, Gemma-7B, Mistral-7B-v0.1, Llama-3.2-3B) demonstrate that, on average, over half of the information in 16-token sequences can be recovered from this compressed representation while maintaining strong semantic integrity and coherence. Furthermore, our analysis reveals an information bottleneck effect: longer sequences exhibit decreased token-level recovery while preserving strong semantic integrity. Besides, our framework also demonstrates robust generalization to out-of-distribution medical data.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々なタスクで顕著な進歩を遂げているが、その内部メカニズムはほとんど不透明である。
本研究では,LLM内の最後の1つの表現から,元の入力テキストをどの程度回収できるのか,という根本的な疑問に対処する。
本稿では,最後の記述から全文を復号化するための新しいフレームワークであるRep2Textを提案する。
Rep2Textはトレーニング可能なアダプタを使用し、ターゲットモデルの内部表現をデコード言語モデルの埋め込み空間に投影し、自動的に入力テキストを再構築する。
様々なモデルの組み合わせ(Llama-3.1-8B, Gemma-7B, Mistral-7B-v0.1, Llama-3.2-3B)の実験では、平均して16のトーケン配列の情報の半分以上が、強いセマンティックな整合性と一貫性を維持しながら、圧縮された表現から回収できることが示されている。
さらに,より長いシーケンスは,強い意味的整合性を保ちながらトークンレベルの回復を減少させる。
さらに、我々のフレームワークは、アウト・オブ・ディストリビューション医療データへの堅牢な一般化も示している。
関連論文リスト
- Causal2Vec: Improving Decoder-only LLMs as Versatile Embedding Models [22.02568434890804]
Causal2Vecはデコーダのみの大規模言語モデルの性能を高めるために設計された汎用埋め込みモデルである。
まず、入力テキストを単一のコンテキストトークンにプリエンコードするために、軽量のBERTスタイルのモデルを使用します。
最後に,最後のテキスト埋め込みとしてコンテキストトークンとEOSトークンの隠れ状態を導入した。
論文 参考訳(メタデータ) (2025-07-31T10:01:11Z) - Exploring the Hidden Capacity of LLMs for One-Step Text Generation [3.5785385789441158]
凍結した大きな言語モデルでは、1つのトークン並列フォワードパスで数百の正確なトークンを生成することができることを示す。
これらの表現は与えられたテキストに固有のものではないが、埋め込み空間において接続された局所領域を形成する。
また、これらの表現は与えられたテキストに固有のものではないが、埋め込み空間において接続された局所領域を形成することを実証的に示す。
論文 参考訳(メタデータ) (2025-05-27T13:39:24Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - A Text is Worth Several Tokens: Text Embedding from LLMs Secretly Aligns Well with The Key Tokens [20.37803751979975]
テキストを大きな言語モデルベースの埋め込み器に入力すると、得られたテキストの埋め込みは入力テキストのキートークンと一致させることができる。
この現象は普遍的であり,モデルアーキテクチャ,トレーニング戦略,埋め込み手法の影響を受けないことを示す。
論文 参考訳(メタデータ) (2024-06-25T08:55:12Z) - OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition [79.852642726105]
多様なシナリオにまたがって視覚的なテキストを解析するための統一パラダイムを提案する。
具体的には,3つの視覚的なテキスト解析タスクを同時に処理できるOmniというユニバーサルモデルを提案する。
オムニでは、全てのタスクが統一エンコーダ・デコーダアーキテクチャ、統一目的点条件テキスト生成、統一入力表現を共有している。
論文 参考訳(メタデータ) (2024-03-28T03:51:14Z) - RetroMAE-2: Duplex Masked Auto-Encoder For Pre-Training
Retrieval-Oriented Language Models [12.37229805276939]
本稿では,DupMAE(Duplex Masked Auto-Encoder)と呼ばれる新しい事前学習手法を提案する。
事前訓練されたモデルのすべてのコンテキスト化埋め込みを活用できる品質意味表現を改善するように設計されている。
論文 参考訳(メタデータ) (2023-05-04T05:37:22Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Enabling Language Models to Fill in the Blanks [81.59381915581892]
文書中の任意の位置にあるテキストの欠落を予測するタスクである,テキストを埋め込むためのシンプルなアプローチを提案する。
我々は、人工的にマスキングされたテキストと隠蔽されたテキストの連結を含むシーケンスに基づいて、オフザシェルフ言語モデル(またはファインチューン)を訓練する。
言語モデリングにより,この手法により,3つの分野(短編,科学的な要約,歌詞)において,LMが文全体を効果的に埋め込むことができることを示す。
論文 参考訳(メタデータ) (2020-05-11T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。