Fugu-MT 論文翻訳(概要): Aug2Search: Enhancing Facebook Marketplace Search with LLM-Generated Synthetic Data Augmentation

論文の概要: Aug2Search: Enhancing Facebook Marketplace Search with LLM-Generated Synthetic Data Augmentation

arxiv url: http://arxiv.org/abs/2505.16065v1
Date: Wed, 21 May 2025 22:33:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-23 17:12:47.937418
Title: Aug2Search: Enhancing Facebook Marketplace Search with LLM-Generated Synthetic Data Augmentation
Title（参考訳）: Aug2Search: LLM生成合成データ拡張によるFacebook Marketplace検索の強化
Authors: Ruijie Xi, He Ba, Hao Yuan, Rishu Agrawal, Arul Prakash,
Abstract要約: Aug2Searchは、Generative AI(GenAI)モデルによって生成された合成データを活用するEBRベースのフレームワークである。本稿では,GenAI,特にLarge Language Models(LLMs)の高品質な合成データ生成能力について検討する。 Aug2Searchは1億の合成データサンプルを使用して、ROC_AUCの最大4%の改善を実現している。
参考スコア（独自算出の注目度）: 8.358632499600764
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Embedding-Based Retrieval (EBR) is an important technique in modern search engines, enabling semantic match between search queries and relevant results. However, search logging data on platforms like Facebook Marketplace lacks the diversity and details needed for effective EBR model training, limiting the models' ability to capture nuanced search patterns. To address this challenge, we propose Aug2Search, an EBR-based framework leveraging synthetic data generated by Generative AI (GenAI) models, in a multimodal and multitask approach to optimize query-product relevance. This paper investigates the capabilities of GenAI, particularly Large Language Models (LLMs), in generating high-quality synthetic data, and analyzing its impact on enhancing EBR models. We conducted experiments using eight Llama models and 100 million data points from Facebook Marketplace logs. Our synthetic data generation follows three strategies: (1) generate queries, (2) enhance product listings, and (3) generate queries from enhanced listings. We train EBR models on three different datasets: sampled engagement data or original data ((e.g., "Click" and "Listing Interactions")), synthetic data, and a mixture of both engagement and synthetic data to assess their performance across various training sets. Our findings underscore the robustness of Llama models in producing synthetic queries and listings with high coherence, relevance, and diversity, while maintaining low levels of hallucination. Aug2Search achieves an improvement of up to 4% in ROC_AUC with 100 million synthetic data samples, demonstrating the effectiveness of our approach. Moreover, our experiments reveal that with the same volume of training data, models trained exclusively on synthetic data often outperform those trained on original data only or a mixture of original and synthetic data.
Abstract（参考訳）: 埋め込みベース検索(EBR)は,現代の検索エンジンにおいて重要な手法であり,検索クエリと関連する検索結果のセマンティックマッチングを可能にする。しかし、Facebook Marketplaceのようなプラットフォーム上での検索ログデータは、EBRモデルの効果的なトレーニングに必要な多様性と詳細を欠いているため、モデルが微妙な検索パターンをキャプチャする能力は制限されている。この課題に対処するために,生成AI(GenAI)モデルによって生成された合成データを活用するEBRベースのフレームワークであるAug2Searchを提案する。本稿では,GenAI,特にLarge Language Models(LLMs)の高品質な合成データ生成能力について検討し,EBRモデルの強化に対するその影響を分析する。 8つのLlamaモデルと1億のデータポイントをFacebook Marketplaceログから実験した。合成データ生成は,(1) クエリ生成,(2) 製品リスティングの強化,(3) 拡張されたリスティングからのクエリ生成の3つの戦略に従う。サンプル付きエンゲージメントデータまたはオリジナルデータ(例:「クリック」と「リスニングインタラクション」)、合成データ、およびエンゲージメントデータと合成データの混合により、さまざまなトレーニングセットのパフォーマンスを評価する。以上の結果から,Llamaモデルでは,高いコヒーレンス,関連性,多様性をもち,幻覚のレベルを低く保ちながら,合成クエリやリスト作成におけるロバストさを浮き彫りにした。 Aug2Searchは1億の合成データサンプルを用いて最大4%の改善を実現し,本手法の有効性を実証した。さらに,本実験では,同じ量のトレーニングデータを用いて,合成データのみを訓練したモデルが,原データのみを訓練したモデルや,原データと合成データを混合したモデルよりも優れていることを示した。

関連論文リスト

Synthline: A Product Line Approach for Synthetic Requirements Engineering Data Generation using Large Language Models [0.5156484100374059]
本稿では,大規模言語モデルを用いて合成要求工学(RE)データを生成する製品ライン(PL)アプローチであるSynthlineを紹介する。我々の分析によると、合成データセットは実際のデータよりも多様性が低いが、実行可能なトレーニングリソースとして機能するには十分である。以上の結果から, 合成データと実データを組み合わせることで, 大幅な性能向上が期待できる。
論文参考訳（メタデータ） (2025-05-06T07:57:16Z)
Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文参考訳（メタデータ） (2025-03-25T11:07:12Z)
BARE: Leveraging Base Language Models for Few-Shot Synthetic Data Generation [71.46236155101032]
現在のデータ生成法は、数万の例を含むシードセットに依存して、命令調整されたモデルを実行している。いくつか例を挙げると、インストラクションチューニングモデルでは、下流タスクの多様性が不十分であることが分かる。本研究では,ベースモデルの多様性と命令調整モデルの品質保証を両立させる新しい2段階手法であるBase-Refineを提案する。
論文参考訳（メタデータ） (2025-02-03T00:12:40Z)
DreamMask: Boosting Open-vocabulary Panoptic Segmentation with Synthetic Data [61.62554324594797]
オープンな語彙設定でトレーニングデータを生成する方法と、実データと合成データの両方でモデルをトレーニングする方法を探索するDreamMaskを提案する。一般的に、DreamMaskは大規模なトレーニングデータの収集を著しく単純化し、既存のメソッドのプラグイン・アンド・プレイ・エンハンスメントとして機能する。例えば、COCOで訓練しADE20Kで試験すると、ドリームマスクを装備したモデルは以前の最先端の2.1% mIoUよりも優れていた。
論文参考訳（メタデータ） (2025-01-03T19:00:00Z)
Exploring the Landscape for Generative Sequence Models for Specialized Data Synthesis [0.0]
本稿では, 複雑度の異なる3つの生成モデルを用いて, 悪意ネットワークトラフィックを合成する手法を提案する。提案手法は,数値データをテキストに変換し,言語モデリングタスクとして再フレーミングする。提案手法は,高忠実度合成データの生成において,最先端の生成モデルを超えている。
論文参考訳（メタデータ） (2024-11-04T09:51:10Z)
Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2024-10-29T04:14:32Z)
Hybrid Training Approaches for LLMs: Leveraging Real and Synthetic Data to Enhance Model Performance in Domain-Specific Applications [0.0]
本研究では,超微調整型大規模言語モデル(LLM)のハイブリッドアプローチについて検討する。転写された実データと高品質な合成セッションを組み合わせたデータセットを利用することで、ドメイン固有の実データの制限を克服することを目的とした。本研究は,基本基礎モデル,実データで微調整されたモデル,ハイブリッド微調整されたモデルという3つのモデルを評価した。
論文参考訳（メタデータ） (2024-10-11T18:16:03Z)
TarGEN: Targeted Data Generation with Large Language Models [51.87504111286201]
TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
論文参考訳（メタデータ） (2023-10-27T03:32:17Z)
Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文参考訳（メタデータ） (2023-10-25T20:32:02Z)
Bridging the Gap: Enhancing the Utility of Synthetic Data via Post-Processing Techniques [7.967995669387532]
生成モデルは、実世界のデータを置き換えたり拡張したりできる合成データセットを生成するための有望なソリューションとして登場した。本稿では,合成データセットの品質と多様性を向上させるために,新しい3つのポストプロセッシング手法を提案する。 Gap Filler(GaFi)は、Fashion-MNIST、CIFAR-10、CIFAR-100データセットにおいて、実精度スコアとのギャップを2.03%、1.78%、および3.99%に効果的に減少させることを示した。
論文参考訳（メタデータ） (2023-05-17T10:50:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。