論文の概要: CASE -- Condition-Aware Sentence Embeddings for Conditional Semantic Textual Similarity Measurement
- arxiv url: http://arxiv.org/abs/2503.17279v1
- Date: Fri, 21 Mar 2025 16:27:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:57:18.270803
- Title: CASE -- Condition-Aware Sentence Embeddings for Conditional Semantic Textual Similarity Measurement
- Title(参考訳): コンディショナルセマンティックテキスト類似度測定のためのケース-条件対応文埋め込み
- Authors: Gaifan Zhang, Yi Zhou, Danushka Bollegala,
- Abstract要約: Condition-Aware Sentence Embeddings (CASE) は、条件下で文の埋め込みを作成するための効率的で正確な方法である。
ケースは、既存の標準ベンチマークデータセット上で条件付きセマンティックテキスト類似性(C-STS)メソッドよりも大幅に優れています。
本稿では,LLMをベースとした埋め込みの次元性を低減するだけでなく,性能を著しく向上する,教師付き次元性低減手法を提案する。
- 参考スコア(独自算出の注目度): 28.35953315232521
- License:
- Abstract: The meaning conveyed by a sentence often depends on the context in which it appears. Despite the progress of sentence embedding methods, it remains unclear how to best modify a sentence embedding conditioned on its context. To address this problem, we propose Condition-Aware Sentence Embeddings (CASE), an efficient and accurate method to create an embedding for a sentence under a given condition. First, CASE creates an embedding for the condition using a Large Language Model (LLM), where the sentence influences the attention scores computed for the tokens in the condition during pooling. Next, a supervised nonlinear projection is learned to reduce the dimensionality of the LLM-based text embeddings. We show that CASE significantly outperforms previously proposed Conditional Semantic Textual Similarity (C-STS) methods on an existing standard benchmark dataset. We find that subtracting the condition embedding consistently improves the C-STS performance of LLM-based text embeddings. Moreover, we propose a supervised dimensionality reduction method that not only reduces the dimensionality of LLM-based embeddings but also significantly improves their performance.
- Abstract(参考訳): 文によって伝えられる意味は、しばしばそれが現れる文脈に依存する。
文埋め込み手法の進歩にもかかわらず、その文脈に埋め込まれた文埋め込みをいかに最もよく修正するかは、いまだに不明である。
この問題に対処するために,条件対応文埋め込み (CASE) を提案する。
第一に、CASEはLarge Language Model (LLM) を用いて条件の埋め込みを作成し、この文はプール中の条件のトークンに対して計算された注意スコアに影響を与える。
次に、LLMベースのテキスト埋め込みの次元性を低減するために、教師付き非線形投影法を学習する。
既存の標準ベンチマークデータセットにおいて,CASEは従来提案していた条件付きセマンティックテキスト類似性(C-STS)法よりも有意に優れていたことを示す。
条件埋め込みの減算はLLMベースのテキスト埋め込みのC-STS性能を一貫して向上させる。
さらに,LLMをベースとした埋め込みの次元性を低減するだけでなく,性能も大幅に向上する,教師付き次元性低減手法を提案する。
関連論文リスト
- Refining Sentence Embedding Model through Ranking Sentences Generation with Large Language Models [60.00178316095646]
多くのNLPタスクには文の埋め込みが不可欠であり、NLIのようなデータセットを使用して強いパフォーマンスを達成する対照的な学習方法がある。
近年の研究では、大きな言語モデル(LLM)を利用して文ペアを生成し、アノテーション依存を減らしている。
本稿では,潜在空間におけるLLMの生成方向を制御する手法を提案する。
複数のベンチマークによる実験により,本手法は文合成に要するコストを最小限に抑えつつ,新たなSOTA性能を実現することを示した。
論文 参考訳(メタデータ) (2025-02-19T12:07:53Z) - Following the Autoregressive Nature of LLM Embeddings via Compression and Alignment [69.67015515485349]
本稿では,条件付き確率分布を埋め込んだコントラスト学習手法であるAutoRegEmbedを提案する。
本手法は従来のコントラスト学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-02-17T03:36:25Z) - FREST: Feature RESToration for Semantic Segmentation under Multiple Adverse Conditions [35.243694861973715]
FRESTは、セマンティックセグメンテーションのソースフリードメイン適応(SFDA)を悪条件に適応するための、新しい機能回復フレームワークである。
FRESTは、FDAの有害な状態に対する2つの公開ベンチマークで、最先端の技術を達成している。
目に見えないデータセットに対して優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-07-18T12:07:02Z) - On the Dimensionality of Sentence Embeddings [56.86742006079451]
文埋め込みの最適次元は通常、デフォルト値よりも小さいことを示す。
文表現学習モデルの2段階学習法を提案し、エンコーダとプーラを個別に最適化することにより、全体的な性能損失を軽減する。
論文 参考訳(メタデータ) (2023-10-23T18:51:00Z) - Instance Smoothed Contrastive Learning for Unsupervised Sentence
Embedding [16.598732694215137]
特徴空間における埋め込みの境界を円滑にするためのIS-CSEを提案する。
我々は,標準的な意味テキスト類似性(STS)タスクについて評価し,平均78.30%,79.47%,77.73%,79.42%のスピアマン相関を達成した。
論文 参考訳(メタデータ) (2023-05-12T12:46:13Z) - Alleviating Over-smoothing for Unsupervised Sentence Representation [96.19497378628594]
本稿では,この問題を緩和するために,SSCL(Self-Contrastive Learning)というシンプルな手法を提案する。
提案手法は非常に単純で,様々な最先端モデルに拡張して,性能向上を図ることができる。
論文 参考訳(メタデータ) (2023-05-09T11:00:02Z) - Towards preserving word order importance through Forced Invalidation [80.33036864442182]
事前学習された言語モデルは単語の順序に敏感であることを示す。
我々は,単語順序の重要性を維持するために強制的無効化を提案する。
実験の結果,強制的無効化は単語順に対するモデルの感度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-04-11T13:42:10Z) - Obtaining Better Static Word Embeddings Using Contextual Embedding
Models [53.86080627007695]
提案手法はCBOWをベースとした簡易な蒸留法である。
副作用として、我々の手法は文脈的および静的な埋め込みの公正な比較を可能にする。
論文 参考訳(メタデータ) (2021-06-08T12:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。