論文の概要: On The Role of Pretrained Language Models in General-Purpose Text Embeddings: A Survey
- arxiv url: http://arxiv.org/abs/2507.20783v1
- Date: Mon, 28 Jul 2025 12:52:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:58.120204
- Title: On The Role of Pretrained Language Models in General-Purpose Text Embeddings: A Survey
- Title(参考訳): 汎用テキスト埋め込みにおける事前学習言語モデルの役割に関する調査
- Authors: Meishan Zhang, Xin Zhang, Xinping Zhao, Shouzheng Huang, Baotian Hu, Min Zhang,
- Abstract要約: 汎用テキスト埋め込み(GPTE)は、リッチで転送可能な表現を生成する能力によって、大きな注目を集めている。
プレトレーニング言語モデル(PLM)の時代におけるGPTEの概要について概観する。
我々は,多言語サポート,マルチモーダル統合,コード理解,シナリオ固有の適応など,PLMによって実現される高度な役割について述べる。
- 参考スコア(独自算出の注目度): 39.840208834931076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text embeddings have attracted growing interest due to their effectiveness across a wide range of natural language processing (NLP) tasks, such as retrieval, classification, clustering, bitext mining, and summarization. With the emergence of pretrained language models (PLMs), general-purpose text embeddings (GPTE) have gained significant traction for their ability to produce rich, transferable representations. The general architecture of GPTE typically leverages PLMs to derive dense text representations, which are then optimized through contrastive learning on large-scale pairwise datasets. In this survey, we provide a comprehensive overview of GPTE in the era of PLMs, focusing on the roles PLMs play in driving its development. We first examine the fundamental architecture and describe the basic roles of PLMs in GPTE, i.e., embedding extraction, expressivity enhancement, training strategies, learning objectives, and data construction. Then, we describe advanced roles enabled by PLMs, such as multilingual support, multimodal integration, code understanding, and scenario-specific adaptation. Finally, we highlight potential future research directions that move beyond traditional improvement goals, including ranking integration, safety considerations, bias mitigation, structural information incorporation, and the cognitive extension of embeddings. This survey aims to serve as a valuable reference for both newcomers and established researchers seeking to understand the current state and future potential of GPTE.
- Abstract(参考訳): テキストの埋め込みは、検索、分類、クラスタリング、ビットクストマイニング、要約など、幅広い自然言語処理(NLP)タスクにおける有効性から、関心が高まっている。
事前訓練された言語モデル (PLM) の出現に伴い、汎用テキスト埋め込み (GPTE) は、リッチで転送可能な表現を生成する能力において、大きな注目を集めている。
GPTEの一般的なアーキテクチャは、一般的にPLMを利用して高密度テキスト表現を導出し、大規模なペアワイズデータセットのコントラスト学習によって最適化される。
本調査では, PLMが開発に果たす役割に着目し, PLM時代におけるGPTEの概要を概観する。
まず,GPTEにおけるPLMの基本的構造,すなわち,組込み抽出,表現性向上,学習戦略,学習目標,データ構築などの基本的役割について考察する。
次に,多言語サポート,マルチモーダル統合,コード理解,シナリオ固有の適応など,PLMによって実現される高度な役割について述べる。
最後に、ランキング統合、安全性の考慮、バイアス緩和、構造情報の導入、埋め込みの認知的拡張など、従来の改善目標を超える将来的な研究方向性を強調した。
この調査は、GPTEの現状と将来の可能性を理解するために、新参者および確立された研究者双方にとって貴重な参考となることを目的としている。
関連論文リスト
- Generalizing vision-language models to novel domains: A comprehensive survey [55.97518817219619]
視覚言語事前学習は、視覚とテキストの両モードの強みを統合する変換技術として登場した。
本調査は, VLM文献における一般化設定, 方法論, ベンチマーク, 結果の総合的な要約を目的とする。
論文 参考訳(メタデータ) (2025-06-23T10:56:37Z) - When Text Embedding Meets Large Language Model: A Comprehensive Survey [17.263184207651072]
この調査は、大きな言語モデル(LLM)とテキスト埋め込みの相互作用に焦点を当てている。
様々な研究および応用分野からの貢献の、新しく体系的な概要を提供する。
この分析に基づいて,テキスト埋め込みの進化に向けた今後の方向性を概説する。
論文 参考訳(メタデータ) (2024-12-12T10:50:26Z) - Recent advances in text embedding: A Comprehensive Review of Top-Performing Methods on the MTEB Benchmark [0.0]
MTEB(Massive Text Embedding Benchmark)におけるテキスト埋め込みの最高性能に着目したユニバーサルテキスト埋め込みモデルの進歩について概説する。
詳細な比較と分析を通じて、この分野における重要な貢献と限界を強調し、将来的な研究の方向性を示唆する。
論文 参考訳(メタデータ) (2024-05-27T09:52:54Z) - Exploring Large Language Model for Graph Data Understanding in Online
Job Recommendations [63.19448893196642]
本稿では,大規模言語モデルが提供するリッチな文脈情報と意味表現を利用して行動グラフを解析する新しいフレームワークを提案する。
この機能を利用することで、個々のユーザに対してパーソナライズされた、正確なジョブレコメンデーションが可能になる。
論文 参考訳(メタデータ) (2023-07-10T11:29:41Z) - A Survey of Pretrained Language Models Based Text Generation [97.64625999380425]
テキスト生成は、入力データから人間の言語で可読で読みやすいテキストを生成することを目的としている。
ディープラーニングは、ニューラルジェネレーションモデル、特に事前学習言語モデル(PLM)のパラダイムにより、この分野を大幅に進歩させた。
PLM上でのテキスト生成は、学術と産業の両方において有望な方向と見なされている。
論文 参考訳(メタデータ) (2022-01-14T01:44:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。