論文の概要: Aug2Search: Enhancing Facebook Marketplace Search with LLM-Generated Synthetic Data Augmentation
- arxiv url: http://arxiv.org/abs/2505.16065v1
- Date: Wed, 21 May 2025 22:33:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.937418
- Title: Aug2Search: Enhancing Facebook Marketplace Search with LLM-Generated Synthetic Data Augmentation
- Title(参考訳): Aug2Search: LLM生成合成データ拡張によるFacebook Marketplace検索の強化
- Authors: Ruijie Xi, He Ba, Hao Yuan, Rishu Agrawal, Arul Prakash,
- Abstract要約: Aug2Searchは、Generative AI(GenAI)モデルによって生成された合成データを活用するEBRベースのフレームワークである。
本稿では,GenAI,特にLarge Language Models(LLMs)の高品質な合成データ生成能力について検討する。
Aug2Searchは1億の合成データサンプルを使用して、ROC_AUCの最大4%の改善を実現している。
- 参考スコア(独自算出の注目度): 8.358632499600764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embedding-Based Retrieval (EBR) is an important technique in modern search engines, enabling semantic match between search queries and relevant results. However, search logging data on platforms like Facebook Marketplace lacks the diversity and details needed for effective EBR model training, limiting the models' ability to capture nuanced search patterns. To address this challenge, we propose Aug2Search, an EBR-based framework leveraging synthetic data generated by Generative AI (GenAI) models, in a multimodal and multitask approach to optimize query-product relevance. This paper investigates the capabilities of GenAI, particularly Large Language Models (LLMs), in generating high-quality synthetic data, and analyzing its impact on enhancing EBR models. We conducted experiments using eight Llama models and 100 million data points from Facebook Marketplace logs. Our synthetic data generation follows three strategies: (1) generate queries, (2) enhance product listings, and (3) generate queries from enhanced listings. We train EBR models on three different datasets: sampled engagement data or original data ((e.g., "Click" and "Listing Interactions")), synthetic data, and a mixture of both engagement and synthetic data to assess their performance across various training sets. Our findings underscore the robustness of Llama models in producing synthetic queries and listings with high coherence, relevance, and diversity, while maintaining low levels of hallucination. Aug2Search achieves an improvement of up to 4% in ROC_AUC with 100 million synthetic data samples, demonstrating the effectiveness of our approach. Moreover, our experiments reveal that with the same volume of training data, models trained exclusively on synthetic data often outperform those trained on original data only or a mixture of original and synthetic data.
- Abstract(参考訳): 埋め込みベース検索(EBR)は,現代の検索エンジンにおいて重要な手法であり,検索クエリと関連する検索結果のセマンティックマッチングを可能にする。
しかし、Facebook Marketplaceのようなプラットフォーム上での検索ログデータは、EBRモデルの効果的なトレーニングに必要な多様性と詳細を欠いているため、モデルが微妙な検索パターンをキャプチャする能力は制限されている。
この課題に対処するために,生成AI(GenAI)モデルによって生成された合成データを活用するEBRベースのフレームワークであるAug2Searchを提案する。
本稿では,GenAI,特にLarge Language Models(LLMs)の高品質な合成データ生成能力について検討し,EBRモデルの強化に対するその影響を分析する。
8つのLlamaモデルと1億のデータポイントをFacebook Marketplaceログから実験した。
合成データ生成は,(1) クエリ生成,(2) 製品リスティングの強化,(3) 拡張されたリスティングからのクエリ生成の3つの戦略に従う。
サンプル付きエンゲージメントデータまたはオリジナルデータ(例:「クリック」と「リスニングインタラクション」)、合成データ、およびエンゲージメントデータと合成データの混合により、さまざまなトレーニングセットのパフォーマンスを評価する。
以上の結果から,Llamaモデルでは,高いコヒーレンス,関連性,多様性をもち,幻覚のレベルを低く保ちながら,合成クエリやリスト作成におけるロバストさを浮き彫りにした。
Aug2Searchは1億の合成データサンプルを用いて最大4%の改善を実現し,本手法の有効性を実証した。
さらに,本実験では,同じ量のトレーニングデータを用いて,合成データのみを訓練したモデルが,原データのみを訓練したモデルや,原データと合成データを混合したモデルよりも優れていることを示した。
関連論文リスト
- Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - BARE: Leveraging Base Language Models for Few-Shot Synthetic Data Generation [71.46236155101032]
現在のデータ生成法は、数万の例を含むシードセットに依存して、命令調整されたモデルを実行している。
いくつか例を挙げると、インストラクションチューニングモデルでは、下流タスクの多様性が不十分であることが分かる。
本研究では,ベースモデルの多様性と命令調整モデルの品質保証を両立させる新しい2段階手法であるBase-Refineを提案する。
論文 参考訳(メタデータ) (2025-02-03T00:12:40Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Hybrid Training Approaches for LLMs: Leveraging Real and Synthetic Data to Enhance Model Performance in Domain-Specific Applications [0.0]
本研究では,超微調整型大規模言語モデル(LLM)のハイブリッドアプローチについて検討する。
転写された実データと高品質な合成セッションを組み合わせたデータセットを利用することで、ドメイン固有の実データの制限を克服することを目的とした。
本研究は,基本基礎モデル,実データで微調整されたモデル,ハイブリッド微調整されたモデルという3つのモデルを評価した。
論文 参考訳(メタデータ) (2024-10-11T18:16:03Z) - Bridging the Gap: Enhancing the Utility of Synthetic Data via
Post-Processing Techniques [7.967995669387532]
生成モデルは、実世界のデータを置き換えたり拡張したりできる合成データセットを生成するための有望なソリューションとして登場した。
本稿では,合成データセットの品質と多様性を向上させるために,新しい3つのポストプロセッシング手法を提案する。
Gap Filler(GaFi)は、Fashion-MNIST、CIFAR-10、CIFAR-100データセットにおいて、実精度スコアとのギャップを2.03%、1.78%、および3.99%に効果的に減少させることを示した。
論文 参考訳(メタデータ) (2023-05-17T10:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。