論文の概要: Learning to Compress: Unlocking the Potential of Large Language Models for Text Representation
- arxiv url: http://arxiv.org/abs/2511.17129v1
- Date: Fri, 21 Nov 2025 10:45:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.975551
- Title: Learning to Compress: Unlocking the Potential of Large Language Models for Text Representation
- Title(参考訳): 圧縮を学ぶ: テキスト表現のための大規模言語モデルの可能性を解き放つ
- Authors: Yeqin Zhang, Yizheng Zhao, Chen Hu, Binxing Jiao, Daxin Jiang, Ruihang Miao, Cam-Tu Nguyen,
- Abstract要約: 大規模言語モデル(LLM)の教師なし適応のためのプレテキストタスクとして,文脈圧縮の未解決の可能性について検討する。
実験により、よく設計された圧縮目的がLLMベースのテキスト表現を大幅に強化できることが示されている。
コントラスト学習によるさらなる改善は、強い表現モデル(LLM2Comp)を生成する
- 参考スコア(独自算出の注目度): 34.21806963402883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text representation plays a critical role in tasks like clustering, retrieval, and other downstream applications. With the emergence of large language models (LLMs), there is increasing interest in harnessing their capabilities for this purpose. However, most of the LLMs are inherently causal and optimized for next-token prediction, making them suboptimal for producing holistic representations. To address this, recent studies introduced pretext tasks to adapt LLMs for text representation. Most of these tasks, however, rely on token-level prediction objectives, such as the masked next-token prediction (MNTP) used in LLM2Vec. In this work, we explore the untapped potential of context compression as a pretext task for unsupervised adaptation of LLMs. During compression pre-training, the model learns to generate compact memory tokens, which substitute the whole context for downstream sequence prediction. Experiments demonstrate that a well-designed compression objective can significantly enhance LLM-based text representations, outperforming models trained with token-level pretext tasks. Further improvements through contrastive learning produce a strong representation model (LLM2Comp) that outperforms contemporary LLM-based text encoders on a wide range of tasks while being more sample-efficient, requiring significantly less training data.
- Abstract(参考訳): テキスト表現は、クラスタリング、検索、その他の下流アプリケーションのようなタスクにおいて重要な役割を果たす。
大規模言語モデル(LLM)の出現に伴い、この目的のためにその能力を活用することへの関心が高まっている。
しかし、LLMの多くは本質的に因果的であり、次のトーケン予測に最適化されており、全体論的な表現を生成するのに最適である。
この問題に対処するため、近年の研究では、テキスト表現にLLMを適用するためのプレテキストタスクを導入している。
しかしながら、これらのタスクの多くは、LLM2Vecで使用されるマスク付き次世代予測(MNTP)のようなトークンレベルの予測目標に依存している。
本研究では,LLMの教師なし適応のためのプレテキストタスクとして,文脈圧縮の未解決の可能性について検討する。
圧縮事前トレーニング中、モデルは、ダウンストリームシーケンス予測のためにコンテキスト全体を置換するコンパクトなメモリトークンを生成することを学習する。
実験により、よく設計された圧縮目的により、LLMベースのテキスト表現が大幅に向上し、トークンレベルのプリテキストタスクで訓練されたモデルよりも優れることが示された。
コントラスト学習によるさらなる改善により、LLMベースのテキストエンコーダを幅広いタスクで性能良くし、よりサンプル効率が良く、トレーニングデータを大幅に削減する強力な表現モデル(LLM2Comp)が生み出される。
関連論文リスト
- Causal2Vec: Improving Decoder-only LLMs as Versatile Embedding Models [22.02568434890804]
Causal2Vecはデコーダのみの大規模言語モデルの性能を高めるために設計された汎用埋め込みモデルである。
まず、入力テキストを単一のコンテキストトークンにプリエンコードするために、軽量のBERTスタイルのモデルを使用します。
最後に,最後のテキスト埋め込みとしてコンテキストトークンとEOSトークンの隠れ状態を導入した。
論文 参考訳(メタデータ) (2025-07-31T10:01:11Z) - Resource-Efficient Adaptation of Large Language Models for Text Embeddings via Prompt Engineering and Contrastive Fine-tuning [3.9914181590063884]
大規模言語モデル(LLM)は自然言語処理(NLP)の基盤となっている。
プリトレーニングされたデコーダのみのLLMの適応戦略について検討する。
論文 参考訳(メタデータ) (2025-07-30T14:49:30Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM
Inference with Transferable Prompt [96.24800696597707]
圧縮モデルにより,このトレードオフを最適化する新たな視点を導入する。
本稿では,圧縮されたモデルを学習プロセスに公開するソフトプロンプト学習法を提案する。
我々のソフトプロンプト戦略は8x圧縮LLaMA-7Bモデルの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-17T20:45:13Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z) - COCO-LM: Correcting and Contrasting Text Sequences for Language Model
Pretraining [59.169836983883656]
COCO-LMは、チャレンジングなエラーとテキストシーケンスの変換によって言語モデルを事前学習する新しい自己監視学習フレームワークです。
COCO-LMは、オリジナルのテキストシーケンスでマスク&予測トークンに補助言語モデルを採用しています。
分析の結果,coco-lmのアドバンテージは,困難なトレーニング信号,よりコンテキスト化されたトークン表現,正規化されたシーケンス表現であることがわかった。
論文 参考訳(メタデータ) (2021-02-16T22:24:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。