論文の概要: One Word Is Not Enough: Simple Prompts Improve Word Embeddings
- arxiv url: http://arxiv.org/abs/2512.06744v1
- Date: Sun, 07 Dec 2025 09:17:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.500784
- Title: One Word Is Not Enough: Simple Prompts Improve Word Embeddings
- Title(参考訳): 1つの単語だけでは十分ではない: シンプルなプロンプトで単語の埋め込みが改善
- Authors: Rajeev Ranjan,
- Abstract要約: 埋め込み前の単語に対して単に意味的なプロンプトを予測すれば、単語の類似性相関が大幅に改善されることを示す。
また,SimLex-999では,「意味:単語」や「意味概念:単語」などのプロンプトによって,スピアマン相関が+0.29まで改善されることがわかった。
- 参考スコア(独自算出の注目度): 0.7614628596146601
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text embedding models are designed for sentence-level applications like retrieval and semantic similarity, and are primarily evaluated on sentence-level benchmarks. Their behavior on isolated words is less understood. We show that simply prepending semantic prompts to words before embedding substantially improves word similarity correlations. Testing 7 text embedding models, including text-embedding-3-large (OpenAI), embed-english-v3.0 (Cohere), voyage-3(Voyage AI), all-mpnet-base-v2, and Qwen3-Embedding-8B, on 3 standard benchmarks (SimLex-999, WordSim-353, MEN-3000), we find that prompts like "meaning: {word}" or "Represent the semantic concept: {word}" improve Spearman correlations by up to +0.29 on SimLex-999. Some models fail completely on bare words (correlation = 0) but recover with prompts (+0.73 improvement). Our best results achieve correlation = 0.692 on SimLex-999 with embed-english-v3.0 (Cohere), correlation = 0.811 on WordSim-353, and correlation = 0.855 on MEN-3000 with text-embedding-3-large (OpenAI). These results outperform classic static embeddings like Word2Vec (correlation = 0.40) and even the best static method LexVec (correlation = 0.48) on SimLex-999, establishing a new state-of-the-art for pure embedding methods. This zero-shot technique requires no training and works with any text embedding model.
- Abstract(参考訳): テキスト埋め込みモデルは、検索や意味的類似性のような文レベルのアプリケーション用に設計されており、主に文レベルのベンチマークで評価されている。
孤立した言葉に対する彼らの行動は理解されていない。
埋め込み前の単語に対して単に意味的プロンプトをプリプロンプトするだけで、単語の類似性相関が大幅に改善されることを示す。
text-embedding-3-large (OpenAI), Embed-english-v3.0 (Cohere), voyage-3(Voyage AI), all-mpnet-base-v2, Qwen3-Embedding-8Bといった7つのテキスト埋め込みモデルを3つの標準ベンチマーク(SimLex-999, WordSim-353, MEN-3000)でテストしたところ、" meaning: {word}"や"represent the semantic concept: {word}"のようなプロンプトがSimLex-999で+0.29までのスピアマン相関を改善することがわかった。
いくつかのモデルは素語で完全に失敗する(相関=0)が、プロンプトで回復する(+0.73の改善)。
その結果,SimLex-999では,組込み文v3.0(Cohere),WordSim-353では0.811,テキスト埋め込み3-large(OpenAI)では0.855,MEN-3000では0.855の相関が得られた。
これらの結果は、Word2Vec (correlation = 0.40) のような古典的な静的埋め込みと、SimLex-999上での最高の静的メソッド LexVec (correlation = 0.48) よりも優れており、純粋な埋め込みメソッドのための新しい最先端技術を確立している。
このゼロショット技術は、トレーニングを必要とせず、どんなテキスト埋め込みモデルでも動作する。
関連論文リスト
- Emergent Lexical Semantics in Neural Language Models: Testing Martin's Law on LLM-Generated Text [0.0]
マーティンの法則はチェックポイント100を中心に現れ、チェックポイント104でピーク相関(r > 0.6)に達し、チェックポイント105で劣化する。
小型モデル (70M, 160M) は後期チェックポイントで破滅的なセマンティック崩壊を経験し、大型モデル (410M, 1B) は優雅な劣化を示した。
これらの結果から, LLM生成テキストにおける言語規則性の遵守は, 学習によって単調に増加するのではなく, 最適な意味窓を持つバランスの取れた軌跡に従うことが示唆された。
論文 参考訳(メタデータ) (2025-11-26T12:31:14Z) - Multiple References with Meaningful Variations Improve Literary Machine Translation [15.399876365676116]
本稿では、Par3データセットにおける世界文学の異なる英訳間の意味的類似性を解析し、複数の参照を用いるためのベストプラクティスを検討する。
我々は,パラフレーズ間の意味的類似性を,低,中,高の3つのレベルに分類する。
中・高意味の類似性を持つパラフレーズを使用することで、BLEU(0.3-0.5)、COMET(0.1-0.9)、chrF++(0.17-0.32)が改善され、未フィルタリングデータセットのパフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-12-24T23:49:12Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Towards Unsupervised Recognition of Token-level Semantic Differences in
Related Documents [61.63208012250885]
意味的差異をトークンレベルの回帰タスクとして認識する。
マスク付き言語モデルに依存する3つの教師なしアプローチについて検討する。
その結果,単語アライメントと文レベルのコントラスト学習に基づくアプローチは,ゴールドラベルと強い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2023-05-22T17:58:04Z) - Homophone Reveals the Truth: A Reality Check for Speech2Vec [1.2691047660244335]
本稿では,本分野における基礎研究の真正性,すなわちSpeech2Vecについて検討する。
これらの埋め込みがSpeech2Vecモデルによって生成されるという兆候はない。
実験の結果、このモデルは効果的なセマンティック埋め込みを学習できなかった。
論文 参考訳(メタデータ) (2022-09-22T05:32:09Z) - FastKASSIM: A Fast Tree Kernel-Based Syntactic Similarity Metric [48.66580267438049]
我々は,発話レベルと文書レベルの構文的類似性の指標であるFastKASSIMを提案する。
ツリーカーネルに基づいたドキュメントのペア間で、最も類似した依存関係解析ツリーをペア化し、平均化する。
r/ChangeMyViewコーパス内のドキュメントのベースラインメソッドよりも最大5.2倍高速に動作します。
論文 参考訳(メタデータ) (2022-03-15T22:33:26Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z) - LexSubCon: Integrating Knowledge from Lexical Resources into Contextual
Embeddings for Lexical Substitution [76.615287796753]
本稿では,コンテキスト埋め込みモデルに基づくエンドツーエンドの語彙置換フレームワークであるLexSubConを紹介する。
これは文脈情報と構造化語彙資源からの知識を組み合わせることで達成される。
我々の実験によると、LexSubConはLS07とCoInCoベンチマークデータセットで従来の最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-11T21:25:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。