論文の概要: Do We Really Need Specialization? Evaluating Generalist Text Embeddings for Zero-Shot Recommendation and Search
- arxiv url: http://arxiv.org/abs/2507.05006v2
- Date: Tue, 08 Jul 2025 06:16:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 12:20:17.828837
- Title: Do We Really Need Specialization? Evaluating Generalist Text Embeddings for Zero-Shot Recommendation and Search
- Title(参考訳): スペシャライゼーションは本当に必要か? ゼロショット勧告と検索のためのジェネリストテキスト埋め込みの評価
- Authors: Matteo Attimonelli, Alessandro De Bellis, Claudio Pomo, Dietmar Jannach, Eugenio Di Sciascio, Tommaso Di Noia,
- Abstract要約: 汎用テキスト埋め込みモデル(GTE)は大規模コーパス上で事前訓練される。
GTEは特別な適応なしに強力なゼロショット性能を保証できることを示す。
また、最も情報性の高い方向に着目して埋め込み寸法を圧縮することで、ノイズを効果的に低減できることを示す。
- 参考スコア(独自算出の注目度): 51.30225948318648
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained language models (PLMs) are widely used to derive semantic representations from item metadata in recommendation and search. In sequential recommendation, PLMs enhance ID-based embeddings through textual metadata, while in product search, they align item characteristics with user intent. Recent studies suggest task and domain-specific fine-tuning are needed to improve representational power. This paper challenges this assumption, showing that Generalist Text Embedding Models (GTEs), pre-trained on large-scale corpora, can guarantee strong zero-shot performance without specialized adaptation. Our experiments demonstrate that GTEs outperform traditional and fine-tuned models in both sequential recommendation and product search. We attribute this to a superior representational power, as they distribute features more evenly across the embedding space. Finally, we show that compressing embedding dimensions by focusing on the most informative directions (e.g., via PCA) effectively reduces noise and improves the performance of specialized models. To ensure reproducibility, we provide our repository at https://split.to/gte4ps.
- Abstract(参考訳): 事前訓練された言語モデル(PLM)は、推奨と検索の項目メタデータから意味表現を導出するために広く使われている。
シーケンシャルなレコメンデーションでは、PLMはテキストメタデータによるIDベースの埋め込みを強化し、製品検索では、アイテムの特徴とユーザ意図を一致させる。
近年の研究では、表現力を向上させるためにタスクとドメイン固有の微調整が必要であることが示唆されている。
本稿では,大規模コーパスで事前学習したジェネリストテキスト埋め込みモデル(GTE)が,特別な適応なしに強力なゼロショット性能を保証できることを示す。
実験により,GTEは逐次レコメンデーションと製品検索の両方において,従来のモデルや微調整モデルよりも優れていることが示された。
我々はこれを、埋め込み空間にさらに均等に特徴を分配するので、表現力に優れているとみなす。
最後に、最も情報性の高い方向(例えばPCA)に着目して埋め込み次元を圧縮することにより、ノイズを効果的に低減し、特殊モデルの性能を向上させることを示す。
再現性を確保するため、私たちはリポジトリをhttps://split.to/gte4psで提供しています。
関連論文リスト
- Scaling Transformers for Discriminative Recommendation via Generative Pretraining [15.796591192359044]
オーバーフィット問題に対処するため,GPSD (textbfGenerative textbfPretraining for textbfScalable textbfDiscriminative Recommendation) というフレームワークを提案する。
産業規模のデータセットと一般公開データセットの両方で実施された大規模な実験は、GPSDの優れた性能を示している。
論文 参考訳(メタデータ) (2025-06-04T08:31:33Z) - Adapting General-Purpose Embedding Models to Private Datasets Using Keyword-based Retrieval [19.57735892785756]
BMEmbedは、汎用テキスト埋め込みモデルをプライベートデータセットに適用するための新しい手法である。
モデル適応を容易にするために,キーワードベースの検索結果のランキングからスーパーバイザリー信号を構築する。
我々は、BMEmbedをさまざまな領域、データセット、モデルにまたがって評価し、検索性能が一貫した改善を示した。
論文 参考訳(メタデータ) (2025-05-31T03:06:09Z) - Inductive Generative Recommendation via Retrieval-based Speculation [26.70518822003545]
生成的レコメンデーション(GR)は、アイテムを個別のトークンにトークン化し、次のトークンを予測として自動回帰的に生成することを学ぶ、新たなパラダイムである。
本稿では,プラグイン・アンド・プレイのフレームワークであるSpecGRを提案する。
論文 参考訳(メタデータ) (2024-10-03T19:32:32Z) - Text Matching Improves Sequential Recommendation by Reducing Popularity
Biases [48.272381505993366]
TASTEは、アイテムの識別子と属性を使用して、アイテムとユーザとイテムのインタラクションを言語化する。
実験の結果,TASTEはシーケンシャルレコメンデーションデータセットにおいて最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-08-27T07:44:33Z) - Enhancing Black-Box Few-Shot Text Classification with Prompt-Based Data
Augmentation [42.05617728412819]
大規模言語モデルの勾配にアクセスすることなく、少数ショットのテキスト分類を最適化する方法を示す。
我々のアプローチはBT-Classifierと呼ばれ、最先端のブラックボックス学習者よりもはるかに優れています。
論文 参考訳(メタデータ) (2023-05-23T07:54:34Z) - Attentive Graph-based Text-aware Preference Modeling for Top-N
Recommendation [2.3991565023534083]
我々はAttentive Graph-based Text-aware Recommendation Model (AGTM) という新しいモデルを提案する。
本研究では,項目テキストコンテンツと高次接続性の両方を効果的にモデル化し,トップNレコメンデーションをさらに改善することを目的としている。
論文 参考訳(メタデータ) (2023-05-22T12:32:06Z) - POUF: Prompt-oriented unsupervised fine-tuning for large pre-trained
models [62.23255433487586]
モデルに微調整を施したり、ラベルのないターゲットデータにプロンプトを施したりするための教師なしの微調整フレームワークを提案する。
本稿では,プロンプトとターゲットデータから抽出した離散分布を整列させて,言語拡張視覚とマスキング言語モデルの両方に適用する方法を示す。
論文 参考訳(メタデータ) (2023-04-29T22:05:22Z) - Studying How to Efficiently and Effectively Guide Models with Explanations [52.498055901649025]
「モデルガイダンス」とは「正しい理由のために正しい」ことを保証するためにモデルの説明を規則化する考え方である。
PASCAL VOC 2007 および MS COCO 2014 データセット上で, 各種損失関数, 帰属方法, モデル, 誘導深度について詳細な評価を行う。
具体的には、一般的に使用されるセグメンテーションマスクよりもはるかに安価で入手可能なバウンディングボックスアノテーションを用いてモデルをガイドする。
論文 参考訳(メタデータ) (2023-03-21T15:34:50Z) - Teacher Guided Training: An Efficient Framework for Knowledge Transfer [86.6784627427194]
高品質なコンパクトモデルを訓練するための教師誘導訓練(TGT)フレームワークを提案する。
TGTは、教師が基礎となるデータドメインの優れた表現を取得したという事実を利用する。
TGTは複数の画像分類ベンチマークやテキスト分類や検索タスクの精度を向上させることができる。
論文 参考訳(メタデータ) (2022-08-14T10:33:58Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。