Fugu-MT 論文翻訳(概要): On The Role of Pretrained Language Models in General-Purpose Text Embeddings: A Survey

論文の概要: On The Role of Pretrained Language Models in General-Purpose Text Embeddings: A Survey

arxiv url: http://arxiv.org/abs/2507.20783v1
Date: Mon, 28 Jul 2025 12:52:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-29 16:23:58.120204
Title: On The Role of Pretrained Language Models in General-Purpose Text Embeddings: A Survey
Title（参考訳）: 汎用テキスト埋め込みにおける事前学習言語モデルの役割に関する調査
Authors: Meishan Zhang, Xin Zhang, Xinping Zhao, Shouzheng Huang, Baotian Hu, Min Zhang,
Abstract要約: 汎用テキスト埋め込み(GPTE)は、リッチで転送可能な表現を生成する能力によって、大きな注目を集めている。プレトレーニング言語モデル(PLM)の時代におけるGPTEの概要について概観する。我々は,多言語サポート,マルチモーダル統合,コード理解,シナリオ固有の適応など,PLMによって実現される高度な役割について述べる。
参考スコア（独自算出の注目度）: 39.840208834931076
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text embeddings have attracted growing interest due to their effectiveness across a wide range of natural language processing (NLP) tasks, such as retrieval, classification, clustering, bitext mining, and summarization. With the emergence of pretrained language models (PLMs), general-purpose text embeddings (GPTE) have gained significant traction for their ability to produce rich, transferable representations. The general architecture of GPTE typically leverages PLMs to derive dense text representations, which are then optimized through contrastive learning on large-scale pairwise datasets. In this survey, we provide a comprehensive overview of GPTE in the era of PLMs, focusing on the roles PLMs play in driving its development. We first examine the fundamental architecture and describe the basic roles of PLMs in GPTE, i.e., embedding extraction, expressivity enhancement, training strategies, learning objectives, and data construction. Then, we describe advanced roles enabled by PLMs, such as multilingual support, multimodal integration, code understanding, and scenario-specific adaptation. Finally, we highlight potential future research directions that move beyond traditional improvement goals, including ranking integration, safety considerations, bias mitigation, structural information incorporation, and the cognitive extension of embeddings. This survey aims to serve as a valuable reference for both newcomers and established researchers seeking to understand the current state and future potential of GPTE.
Abstract（参考訳）: テキストの埋め込みは、検索、分類、クラスタリング、ビットクストマイニング、要約など、幅広い自然言語処理(NLP)タスクにおける有効性から、関心が高まっている。事前訓練された言語モデル (PLM) の出現に伴い、汎用テキスト埋め込み (GPTE) は、リッチで転送可能な表現を生成する能力において、大きな注目を集めている。 GPTEの一般的なアーキテクチャは、一般的にPLMを利用して高密度テキスト表現を導出し、大規模なペアワイズデータセットのコントラスト学習によって最適化される。本調査では, PLMが開発に果たす役割に着目し, PLM時代におけるGPTEの概要を概観する。まず,GPTEにおけるPLMの基本的構造,すなわち,組込み抽出,表現性向上,学習戦略,学習目標,データ構築などの基本的役割について考察する。次に,多言語サポート,マルチモーダル統合,コード理解,シナリオ固有の適応など,PLMによって実現される高度な役割について述べる。最後に、ランキング統合、安全性の考慮、バイアス緩和、構造情報の導入、埋め込みの認知的拡張など、従来の改善目標を超える将来的な研究方向性を強調した。この調査は、GPTEの現状と将来の可能性を理解するために、新参者および確立された研究者双方にとって貴重な参考となることを目的としている。

関連論文リスト

Generalizing vision-language models to novel domains: A comprehensive survey [55.97518817219619]
視覚言語事前学習は、視覚とテキストの両モードの強みを統合する変換技術として登場した。本調査は, VLM文献における一般化設定, 方法論, ベンチマーク, 結果の総合的な要約を目的とする。
論文参考訳（メタデータ） (2025-06-23T10:56:37Z)
Large Language Models in Argument Mining: A Survey [15.041650203089057]
Argument Mining (AM) はテキストから議論的構造を抽出することに焦点を当てている。 LLM(Large Language Models)の出現は、AMを大きく変化させ、高度な文脈内学習を可能にした。本研究は, LLM駆動型AMの最近の進歩を体系的に合成する。
論文参考訳（メタデータ） (2025-06-19T15:12:58Z)
An Empirical Study of Federated Prompt Learning for Vision Language Model [50.73746120012352]
本稿では,言語素性学習と視覚素性学習の行動的差異を系統的に検討する。クライアントスケールやアグリゲーション戦略,プロンプト長といった,さまざまなflの影響評価実験を行う。ラベルスキューとドメインシフトが共存する複雑なシナリオにおいて、迅速な学習を促進するための戦略を検討する。
論文参考訳（メタデータ） (2025-05-29T03:09:15Z)
How do Large Language Models Understand Relevance? A Mechanistic Interpretability Perspective [64.00022624183781]
大規模言語モデル(LLM)は、関連性を評価し、情報検索(IR)タスクをサポートする。メカニスティック・インタプリタビリティのレンズを用いて,異なるLLMモジュールが関係判断にどのように寄与するかを検討する。
論文参考訳（メタデータ） (2025-04-10T16:14:55Z)
POI-Enhancer: An LLM-based Semantic Enhancement Framework for POI Representation Learning [34.93661259065691]
近年の研究では、多モーダル情報によるPOI表現の充実がタスク性能を大幅に向上させることが示されている。広範なテキストデータに基づいて訓練された大規模言語モデル (LLMs) は、リッチテキストの知識を持つことがわかった。古典的なPOI学習モデルによって生成されたPOI表現を改善するために,LLMを利用するポータブルフレームワークであるPOI-Enhancerを提案する。
論文参考訳（メタデータ） (2025-02-14T09:34:24Z)
When Text Embedding Meets Large Language Model: A Comprehensive Survey [17.263184207651072]
この調査は、大きな言語モデル(LLM)とテキスト埋め込みの相互作用に焦点を当てている。様々な研究および応用分野からの貢献の、新しく体系的な概要を提供する。この分析に基づいて,テキスト埋め込みの進化に向けた今後の方向性を概説する。
論文参考訳（メタデータ） (2024-12-12T10:50:26Z)
Recent advances in text embedding: A Comprehensive Review of Top-Performing Methods on the MTEB Benchmark [0.0]
MTEB(Massive Text Embedding Benchmark)におけるテキスト埋め込みの最高性能に着目したユニバーサルテキスト埋め込みモデルの進歩について概説する。詳細な比較と分析を通じて、この分野における重要な貢献と限界を強調し、将来的な研究の方向性を示唆する。
論文参考訳（メタデータ） (2024-05-27T09:52:54Z)
Exploring Large Language Model for Graph Data Understanding in Online Job Recommendations [63.19448893196642]
本稿では,大規模言語モデルが提供するリッチな文脈情報と意味表現を利用して行動グラフを解析する新しいフレームワークを提案する。この機能を利用することで、個々のユーザに対してパーソナライズされた、正確なジョブレコメンデーションが可能になる。
論文参考訳（メタデータ） (2023-07-10T11:29:41Z)
A Survey of Pretrained Language Models Based Text Generation [97.64625999380425]
テキスト生成は、入力データから人間の言語で可読で読みやすいテキストを生成することを目的としている。ディープラーニングは、ニューラルジェネレーションモデル、特に事前学習言語モデル(PLM)のパラダイムにより、この分野を大幅に進歩させた。 PLM上でのテキスト生成は、学術と産業の両方において有望な方向と見なされている。
論文参考訳（メタデータ） (2022-01-14T01:44:58Z)
Pretrained Language Models for Text Generation: A Survey [46.03096493973206]
本稿では、テキスト生成のための事前学習言語モデル(PLM)のトピックにおいて達成された大きな進歩について概説する。我々は、既存のPLMを異なる入力データに適応させ、生成したテキストの特別な特性を満たす方法について論じる。
論文参考訳（メタデータ） (2021-05-21T12:27:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。