論文の概要: Following the Autoregressive Nature of LLM Embeddings via Compression and Alignment
- arxiv url: http://arxiv.org/abs/2502.11401v2
- Date: Thu, 27 Feb 2025 10:26:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:53:29.035450
- Title: Following the Autoregressive Nature of LLM Embeddings via Compression and Alignment
- Title(参考訳): 圧縮・アライメントによるLLM埋め込みの自己回帰特性の追従
- Authors: Jingcheng Deng, Zhongtao Jiang, Liang Pang, Liwei Chen, Kun Xu, Zihao Wei, Huawei Shen, Xueqi Cheng,
- Abstract要約: 本稿では,条件付き確率分布を埋め込んだコントラスト学習手法であるAutoRegEmbedを提案する。
本手法は従来のコントラスト学習手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 69.67015515485349
- License:
- Abstract: A new trend uses LLMs as dense text encoders via contrastive learning. However, since LLM embeddings predict the probability distribution of the next token, they are inherently generative and distributive, conflicting with contrastive learning, which requires embeddings to capture full-text semantics and align via cosine similarity. This discrepancy hinders the full utilization of LLMs' pre-training capabilities, resulting in inefficient learning. In response to this issue, we propose AutoRegEmbed, a new contrastive learning method built on embedding conditional probability distributions, which integrates two core tasks: information compression and conditional distribution alignment. The information compression task encodes text into the embedding space, ensuring that the embedding vectors capture global semantics. The conditional distribution alignment task focuses on aligning text embeddings with positive samples embeddings by leveraging the conditional distribution of embeddings while simultaneously reducing the likelihood of generating negative samples from text embeddings, thereby achieving embedding alignment and uniformity. Experimental results demonstrate that our method significantly outperforms traditional contrastive learning approaches and achieves performance comparable to state-of-the-art models when using the same amount of data.
- Abstract(参考訳): 新しいトレンドでは、LLMをコントラスト学習による高密度テキストエンコーダとして利用している。
しかし、LLM埋め込みは次のトークンの確率分布を予測するため、それらは本質的に生成的かつ分配的であり、コントラスト学習と矛盾する。
この不一致は、LLMの事前学習能力のフル活用を妨げ、非効率な学習をもたらす。
本稿では,情報圧縮と条件分布アライメントという2つのコアタスクを統合した,条件分布の埋め込みに基づく新しいコントラスト学習手法であるAutoRegEmbedを提案する。
情報圧縮タスクは、テキストを埋め込み空間にエンコードし、埋め込みベクトルがグローバルセマンティクスをキャプチャすることを保証する。
条件分布アライメントタスクは、テキスト埋め込みから負のサンプルを生成する可能性を低減すると同時に、組込みの条件分布を利用して、正のサンプル埋め込みと正のサンプル埋め込みを整合させることに焦点を当て、組込みアライメントと均一性を実現する。
実験結果から,本手法は従来のコントラスト学習手法を著しく上回り,同じ量のデータを使用する場合の最先端モデルに匹敵する性能を実現することが示された。
関連論文リスト
- Enhancing Input-Label Mapping in In-Context Learning with Contrastive Decoding [71.01099784480597]
大規模言語モデル(LLM)は、コンテキスト内学習(ICL)を通じて、様々なタスクで優れる
In-Context Contrastive Decoding (ICCD)を導入する。
ICCDは、正と負のインコンテキストの例の出力分布を対比することで、入力ラベルマッピングを強調する。
論文 参考訳(メタデータ) (2025-02-19T14:04:46Z) - Discriminative Representation learning via Attention-Enhanced Contrastive Learning for Short Text Clustering [1.6788443047694643]
我々は,textbfAttention-textbfEnhanced textbfContrastive textbfLによる識別表現学習という,新しいテキストクラスタリング手法を提案する。
実験の結果,提案したtextbfAECL は最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2025-01-07T07:17:04Z) - ItTakesTwo: Leveraging Peer Representations for Semi-supervised LiDAR Semantic Segmentation [24.743048965822297]
本稿では,ItTakesTwo (IT2) と呼ばれる半教師付きLiDARセマンティックセマンティックセマンティクスフレームワークを提案する。
IT2は、ピアLiDAR表現からの一貫性のある予測を保証するために設計されており、一貫性学習における摂動効率を改善する。
その結果,本手法は従来のSOTA法よりも顕著に改善されていることがわかった。
論文 参考訳(メタデータ) (2024-07-09T18:26:53Z) - Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - ProbVLM: Probabilistic Adapter for Frozen Vision-Language Models [69.50316788263433]
本稿では,事前学習された視覚言語モデルの埋め込みに対する確率分布を推定する確率的アダプタProbVLMを提案する。
本稿では,検索タスクにおける不確実性埋め込みのキャリブレーションを定量化し,ProbVLMが他の手法よりも優れていることを示す。
本稿では,大規模な事前学習型潜伏拡散モデルを用いて,埋め込み分布を可視化する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-01T18:16:06Z) - Distinguishability Calibration to In-Context Learning [31.375797763897104]
そこで本研究では, PLM符号化埋め込みを新しい距離空間にマッピングすることで, 埋め込みの識別性を保証する手法を提案する。
また、双曲的埋め込みの利点を生かして、粒度の細かいクラス関連トークン埋め込み間の階層的関係を捉える。
論文 参考訳(メタデータ) (2023-02-13T09:15:00Z) - Trash to Treasure: Harvesting OOD Data with Cross-Modal Matching for
Open-Set Semi-Supervised Learning [101.28281124670647]
オープンセット半教師付き学習(Open-set SSL)では、ラベルなしデータにOOD(Out-of-distribution)サンプルを含む、難しいが実用的なシナリオを調査する。
我々は、OODデータの存在を効果的に活用し、特徴学習を増強する新しいトレーニングメカニズムを提案する。
我々のアプローチは、オープンセットSSLのパフォーマンスを大幅に向上させ、最先端技術よりも大きなマージンで性能を向上します。
論文 参考訳(メタデータ) (2021-08-12T09:14:44Z) - Disentangled Contrastive Learning for Learning Robust Textual
Representations [13.880693856907037]
運動量表現一貫性の概念を導入し,特徴を整合させ,一様性に適合しながらパワー正規化を活用する。
NLPベンチマークの実験結果から,本手法はベースラインよりも優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2021-04-11T03:32:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。