論文の概要: Let LLMs Speak Embedding Languages: Generative Text Embeddings via Iterative Contrastive Refinement
- arxiv url: http://arxiv.org/abs/2509.24291v1
- Date: Mon, 29 Sep 2025 05:09:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.755831
- Title: Let LLMs Speak Embedding Languages: Generative Text Embeddings via Iterative Contrastive Refinement
- Title(参考訳): LLMs Speak Embedding Languages: Iterative Contrastive Refinementによる生成テキスト埋め込み
- Authors: Yu-Che Tsai, Kuan-Yu Chen, Yuan-Chi Li, Yuan-Hao Chen, Ching-Yu Tsai, Shou-De Lin,
- Abstract要約: GIRCSE(Generative Iterative Refinement for Contrastive Sentence Embeddings)は,自己回帰生成を利用して意味表現を反復的に洗練する新しいフレームワークである。
その結果,表現学習の新たなパラダイムとして,生成的反復洗練が確立された。
- 参考スコア(独自算出の注目度): 5.580772351753706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing large language model (LLM)-based embeddings typically adopt an encoder-only paradigm, treating LLMs as static feature extractors and overlooking their core generative strengths. We introduce GIRCSE (Generative Iterative Refinement for Contrastive Sentence Embeddings), a novel framework that leverages autoregressive generation to iteratively refine semantic representations. By producing sequences of soft tokens optimized under contrastive objective, GIRCSE captures latent concepts and implicit semantics that encoder-only methods often miss. To guide this process, we propose an Iterative Contrastive Refinement (ICR) objective that encourages each refinement step to yield better representations. Extensive experiments show that GIRCSE outperforms strong LLM-based embedding baselines on the MTEB benchmark and instruction-following tasks. Moreover, GIRCSE exhibits an emergent test-time scaling property: generating more tokens at inference steadily improves embedding quality. Our results establish generative iterative refinement as a new paradigm for representation learning.
- Abstract(参考訳): 既存の言語モデル(LLM)ベースの埋め込みは、通常エンコーダのみのパラダイムを採用し、LLMを静的特徴抽出器として扱い、コア生成強度を見渡す。
GIRCSE(Generative Iterative Refinement for Contrastive Sentence Embeddings)は,自己回帰生成を利用して意味表現を反復的に洗練する新しいフレームワークである。
対照的な目的の下で最適化されたソフトトークンのシーケンスを生成することで、GIRCSEは、エンコーダのみのメソッドがしばしば見逃す潜在概念と暗黙のセマンティクスをキャプチャする。
このプロセスの導出として,改良の各ステップがより良い表現を得られるようにするためのICR(Iterative Contrastive Refinement)の目標を提案する。
広範囲な実験により、GIRCSEはMTEBベンチマークと命令追従タスクにおいて強力なLLMベースの埋め込みベースラインより優れていることが示された。
さらに、GIRCSEは、初期的なテスト時間スケーリング特性を示し、推論時により多くのトークンを生成することにより、埋め込み品質が着実に向上する。
その結果,表現学習の新たなパラダイムとして,生成的反復洗練が確立された。
関連論文リスト
- Refining Sentence Embedding Model through Ranking Sentences Generation with Large Language Models [60.00178316095646]
多くのNLPタスクには文の埋め込みが不可欠であり、NLIのようなデータセットを使用して強いパフォーマンスを達成する対照的な学習方法がある。
近年の研究では、大きな言語モデル(LLM)を利用して文ペアを生成し、アノテーション依存を減らしている。
本稿では,潜在空間におけるLLMの生成方向を制御する手法を提案する。
複数のベンチマークによる実験により,本手法は文合成に要するコストを最小限に抑えつつ,新たなSOTA性能を実現することを示した。
論文 参考訳(メタデータ) (2025-02-19T12:07:53Z) - Retrieval-Augmented Semantic Parsing: Improving Generalization with Lexical Knowledge [6.948555996661213]
本稿では,Retrieval-Augmented Semantic Parsing (RASP)を紹介する。
実験の結果,LLMはセマンティック解析において,従来のエンコーダ・デコーダベースラインよりも優れていることがわかった。
RASPはさらに、目に見えない概念を予測する能力を強化し、アウト・オブ・ディストリビューションの概念で以前のモデルのパフォーマンスをほぼ2倍にします。
論文 参考訳(メタデータ) (2024-12-13T15:30:20Z) - Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback [50.84142264245052]
テキストレス音声言語モデル(SLM)のセマンティック理解を強化するためのAlign-SLMフレームワークを導入する。
提案手法は、与えられたプロンプトから複数の音声継続を生成し、意味的指標を用いて、直接選好最適化(DPO)のための選好データを生成する。
語彙および構文モデリングのためのZeroSpeech 2021ベンチマーク、意味的コヒーレンスのためのStoryClozeデータセットの音声バージョン、GPT4-oスコアや人間評価などの音声生成指標を用いて、フレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-11-04T06:07:53Z) - GenEOL: Harnessing the Generative Power of LLMs for Training-Free Sentence Embeddings [7.957874169275548]
トレーニング不要な埋め込み手法は、事前訓練された大規模言語モデル(LLM)を直接利用してテキストを埋め込む。
そこで本研究では,LLMを用いて意味を保った文の多種多様な変換を生成する手法を提案する。
論文 参考訳(メタデータ) (2024-10-18T17:36:53Z) - Prompt Perturbation in Retrieval-Augmented Generation based Large Language Models [9.688626139309013]
Retrieval-Augmented Generationは、大規模言語モデルからテキスト生成の信頼性を向上させる手段として考えられている。
本研究では,プロンプトに短い接頭辞を挿入しても,実際の正解から遠く離れたアウトプットを生成することを発見した。
グラディエントガイドプロンプト摂動法(Gradient Guided Prompt Perturbation)と呼ばれる新しい最適化手法を提案する。
論文 参考訳(メタデータ) (2024-02-11T12:25:41Z) - Large Language Models can Contrastively Refine their Generation for Better Sentence Representation Learning [57.74233319453229]
大規模言語モデル(LLM)は画期的な技術として登場し、それらの非並列テキスト生成能力は、基本的な文表現学習タスクへの関心を喚起している。
コーパスを生成するためにLLMの処理を分解するマルチレベルコントラスト文表現学習フレームワークであるMultiCSRを提案する。
実験の結果,MultiCSRはより高度なLCMをChatGPTの性能を超えつつ,ChatGPTに適用することで最先端の成果を得られることがわかった。
論文 参考訳(メタデータ) (2023-10-17T03:21:43Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。