論文の概要: Bridging the Cold-Start Gap: LLM-Powered Synthetic Data Generation for Natural Language Search at Airbnb
- arxiv url: http://arxiv.org/abs/2605.21812v1
- Date: Wed, 20 May 2026 23:18:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.024753
- Title: Bridging the Cold-Start Gap: LLM-Powered Synthetic Data Generation for Natural Language Search at Airbnb
- Title(参考訳): コールドスタートギャップのブリッジ:Airbnbにおける自然言語検索のためのLLMによる合成データ生成
- Authors: Wendy Ran Wei, Hao Li, Weiwei Guo, Xiaowei Liu, Xueyin Chen, Dillon Davis, Malay Haldar, Soumyadip Banerjee, Kedar Bellare, Huiji Gao, Stephanie Moyerman, Sanjeev Katariya,
- Abstract要約: 大規模言語モデル(LLM)を用いて合成クエリとラベルを生成するためのフレームワークを提案する。
クエリ生成には、予約セッションからのコントラスト的なリストペアと、ユーザリサーチからのシードクエリを組み合わせて、リアリズムと多様性のバランスを取る。
ラベル生成には、構築による話題ラベルを生成するコントラスト生成と、より広範なカバレッジのための仮想ジャッジ(VJ)ラベルを導入する。
- 参考スコア(独自算出の注目度): 13.678824332628311
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying natural language search systems presents a critical cold-start challenge: no real user queries to learn linguistic patterns, and no relevance labels to train ranking models. We present a framework for generating synthetic queries and labels using large language models (LLMs), powering model training and evaluation for Airbnb's natural language search. For query generation, we combine contrastive listing pairs from booking sessions with seed queries from user research to balance realism and diversity, enabling a cold-to-warm start transition as real user data becomes available. For label generation, we introduce contrastive generation that produces topicality labels by construction, and Virtual Judge (VJ) labeling for broader coverage. We compare our approach against a no-seed contrastive baseline and an InPars-style baseline. For query length, the InPars baseline produces verbose queries with KL divergence of 12.03 vs. real users; our seed-guided approach achieves 0.66, a 7.5x improvement. For attribute type distributions, our approach achieves the lowest KL divergence (0.04), outperforming even seed queries (0.09). Experiments show our approach produces harder evaluation examples than the no-seed baseline (79% vs. 97% pairwise accuracy), providing discriminative signal for model improvement. We deploy production pipelines generating synthetic examples daily for embedding-based retrieval and ranking evaluation.
- Abstract(参考訳): 自然言語検索システムのデプロイは、言語パターンを学習する実際のユーザクエリや、ランキングモデルをトレーニングする関連ラベルなど、重要なコールドスタート課題を提示する。
本稿では,大規模言語モデル(LLM)を用いて合成クエリとラベルを生成するためのフレームワークを提案し,Airbnbの自然言語検索のためのモデルトレーニングと評価を行う。
クエリ生成では、予約セッションとユーザリサーチからのシードクエリを対比的に組み合わせて、現実性と多様性のバランスをとることで、実際のユーザデータが利用可能になると、コールド・ツー・ウォームの開始移行を可能にする。
ラベル生成には、構築による話題ラベルを生成するコントラスト生成と、より広範なカバレッジのための仮想ジャッジ(VJ)ラベルを導入する。
ノンシードのコントラストベースラインとInParsスタイルのベースラインとの比較を行った。
InParsベースラインでは、クエリ長に対して、KLの発散が12.03で、実際のユーザに対して冗長なクエリを生成する。
属性型分布に対して,本手法は最小のKL発散(0.04)を達成し,シードクエリ(0.09)よりも優れていた。
実験により, モデル改良のための識別信号として, 非選別ベースライン (79%対97%対ペア精度) よりも難しい評価例が得られた。
組込み型検索とランキング評価のための合成例を毎日生成する生産パイプラインをデプロイする。
関連論文リスト
- HuggingR$^{4}$: A Progressive Reasoning Framework for Discovering Optimal Model Companions [50.61510609116118]
HuggingR$4$は、Reasoning、Retrieval、Refinement、Reflectionを組み合わせて効率的にモデルを選択する新しいフレームワークである。
作業性率は92.03%、理性率は82.46%に達し、それぞれ26.51%、33.25%を超える。
論文 参考訳(メタデータ) (2025-11-24T03:13:45Z) - Modeling Data Diversity for Joint Instance and Verbalizer Selection in Cold-Start Scenarios [11.80632322391738]
COLDSELECTは、データの多様性をモデル化する共同動詞化とインスタンス選択のアプローチである。
8つのベンチマークの実験では、COLDSELECTが不確実性を減らし、一般化を高めるのに優れていることが示されている。
論文 参考訳(メタデータ) (2025-07-01T00:01:50Z) - RAISE: Reasoning Agent for Interactive SQL Exploration [47.77323087050061]
本稿では,スキーマリンク,クエリ生成,反復的改善を1つのエンドツーエンドコンポーネントに統一する新しいフレームワークを提案する。
本手法は、不慣れなデータベースを扱う際に、人間がどう答えるかをエミュレートする。
論文 参考訳(メタデータ) (2025-06-02T03:07:08Z) - Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning [77.120955854093]
我々は,データ多様性が言語モデルにおける一般化の強力な予測因子であることを示す。
モデル誘起勾配のエントロピーを通して多様性を定量化する計量であるG-Vendiを導入する。
多様な合成データを生成するためのフレームワークであるPrismatic Synthesisを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:05:10Z) - SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation [55.2480439325792]
トピック分類,感情分析,トーン検出,ユーモアの6つのデータセットの合成について検討した。
その結果,SynthesizRRは語彙や意味の多様性,人文との類似性,蒸留性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-16T12:22:41Z) - Strings from the Library of Babel: Random Sampling as a Strong Baseline for Prompt Optimisation [27.179705734077388]
近年のプロンプト最適化手法は、言語モデルの生成特性を利用してプロンプトを生成する。
モデルの語彙から「セパレータ」としてランダムにトークンをサンプリングすることは、プロンプトスタイルのテキスト分類のための言語モデルと同じくらい効果的であることを示す。
論文 参考訳(メタデータ) (2023-11-16T05:08:33Z) - Retrieval-based Disentangled Representation Learning with Natural
Language Supervision [61.75109410513864]
本稿では,VDR(Vocabulary Disentangled Retrieval)を提案する。
提案手法では,両エンコーダモデルを用いて語彙空間におけるデータと自然言語の両方を表現する。
論文 参考訳(メタデータ) (2022-12-15T10:20:42Z) - Query Expansion Using Contextual Clue Sampling with Language Models [69.51976926838232]
本稿では,実効的なフィルタリング戦略と検索した文書の融合の組み合わせを,各文脈の生成確率に基づいて提案する。
我々の語彙マッチングに基づくアプローチは、よく確立された高密度検索モデルDPRと比較して、同様のトップ5/トップ20検索精度と上位100検索精度を実現する。
エンド・ツー・エンドのQAでは、読者モデルも我々の手法の恩恵を受けており、いくつかの競争基準に対してエクサクト・マッチのスコアが最も高い。
論文 参考訳(メタデータ) (2022-10-13T15:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。