論文の概要: SemPA: Improving Sentence Embeddings of Large Language Models through Semantic Preference Alignment
- arxiv url: http://arxiv.org/abs/2601.05075v1
- Date: Thu, 08 Jan 2026 16:19:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.272255
- Title: SemPA: Improving Sentence Embeddings of Large Language Models through Semantic Preference Alignment
- Title(参考訳): SemPA: セマンティックな選好アライメントによる大規模言語モデルの文埋め込みの改善
- Authors: Ziyang Chen, Zhenxuan Huang, Yile Wang, Weiqin Wang, Lu Yin, Hui Huang,
- Abstract要約: SemPAは、意味的嗜好のアライメントを通じてLLMの生成能力を保ちながら、文表現を増強する。
我々は,DPOとコントラスト学習の正式な関係を,Planet-Luceモデルフレームワークの下で確立する。
- 参考スコア(独自算出の注目度): 21.557846771500426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional sentence embedding methods employ token-level contrastive learning on non-generative pre-trained models. Recently, there have emerged embedding methods based on generative large language models (LLMs). These methods either rely on fixed prompt templates or involve modifications to the model architecture. The former lacks further optimization of the model and results in limited performance, while the latter alters the internal computational mechanisms of the model, thereby compromising its generative capabilities. We propose SemPA, a novel approach that boosts the sentence representations while preserving the generative ability of LLMs via semantic preference alignment. We leverage sentence-level Direct Preference Optimization (DPO) to efficiently optimize LLMs on a paraphrase generation task, where the model learns to discriminate semantically equivalent sentences while preserving inherent generative capacity. Theoretically, we establish a formal connection between DPO and contrastive learning under the Plackett-Luce model framework. Empirically, experimental results on both semantic textual similarity tasks and various benchmarks for LLMs show that SemPA achieves better semantic representations without sacrificing the inherent generation capability of LLMs.
- Abstract(参考訳): 従来の文埋め込み法では、非生成的事前学習モデルにトークンレベルのコントラスト学習を用いる。
近年,ジェネレーティブな大規模言語モデル (LLM) に基づく埋め込み手法が出現している。
これらのメソッドは、固定プロンプトテンプレートに依存するか、モデルアーキテクチャの変更を含む。
前者はモデルのさらなる最適化を欠き、性能が制限される一方、後者はモデルの内部計算機構を変更し、生成能力を向上する。
本稿では,意味的嗜好のアライメントを通じてLLMの生成能力を保ちつつ,文表現を向上させる新しいアプローチであるSemPAを提案する。
文レベルの直接選好最適化(DPO)を利用してパラフレーズ生成タスク上でLLMを効率よく最適化し、モデルが固有の生成能力を保ちながら意味論的に等価な文を識別することを学習する。
理論的には、我々はDPOと対照的な学習をプラケット・ルーシ・モデル・フレームワークの下で形式的に結びつける。
意味的テキスト類似性タスクとLLMの様々なベンチマークによる実験結果から,SemPAはLLM固有の生成能力を犠牲にすることなく,より優れた意味表現を実現することが示された。
関連論文リスト
- Refining Sentence Embedding Model through Ranking Sentences Generation with Large Language Models [60.00178316095646]
多くのNLPタスクには文の埋め込みが不可欠であり、NLIのようなデータセットを使用して強いパフォーマンスを達成する対照的な学習方法がある。
近年の研究では、大きな言語モデル(LLM)を利用して文ペアを生成し、アノテーション依存を減らしている。
本稿では,潜在空間におけるLLMの生成方向を制御する手法を提案する。
複数のベンチマークによる実験により,本手法は文合成に要するコストを最小限に抑えつつ,新たなSOTA性能を実現することを示した。
論文 参考訳(メタデータ) (2025-02-19T12:07:53Z) - Latent Thought Models with Variational Bayes Inference-Time Computation [52.63299874322121]
ラテント思考モデル(LTM)は、ラテント空間における明示的な事前モデルに従う明示的なラテント思考ベクトルを包含する。
LTMは自己回帰モデルや離散拡散モデルよりも優れたサンプルおよびパラメータ効率を示す。
論文 参考訳(メタデータ) (2025-02-03T17:50:34Z) - Enhancing Semantic Consistency of Large Language Models through Model Editing: An Interpretability-Oriented Approach [28.07366458452159]
大規模言語モデル(LLM)は、等価な意味を持つプロンプトが提示されるが、元のプロンプトとは異なる形で表現されるとき、矛盾する出力を生成する。
LLMのセマンティック一貫性を達成するために、重要なアプローチの1つは、セマンティックに等価な意味を持つプロンプトとアウトプットのペアでモデルを微調整することである。
LLMのセマンティック一貫性を高めるために,より解釈可能な手法(モデル編集)を提案する。
論文 参考訳(メタデータ) (2025-01-19T13:26:15Z) - Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback [50.84142264245052]
テキストレス音声言語モデル(SLM)のセマンティック理解を強化するためのAlign-SLMフレームワークを導入する。
提案手法は、与えられたプロンプトから複数の音声継続を生成し、意味的指標を用いて、直接選好最適化(DPO)のための選好データを生成する。
語彙および構文モデリングのためのZeroSpeech 2021ベンチマーク、意味的コヒーレンスのためのStoryClozeデータセットの音声バージョン、GPT4-oスコアや人間評価などの音声生成指標を用いて、フレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-11-04T06:07:53Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Large Language Models can Contrastively Refine their Generation for Better Sentence Representation Learning [57.74233319453229]
大規模言語モデル(LLM)は画期的な技術として登場し、それらの非並列テキスト生成能力は、基本的な文表現学習タスクへの関心を喚起している。
コーパスを生成するためにLLMの処理を分解するマルチレベルコントラスト文表現学習フレームワークであるMultiCSRを提案する。
実験の結果,MultiCSRはより高度なLCMをChatGPTの性能を超えつつ,ChatGPTに適用することで最先端の成果を得られることがわかった。
論文 参考訳(メタデータ) (2023-10-17T03:21:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。