論文の概要: Enhancing and Scaling Search Query Datasets for Recommendation Systems
- arxiv url: http://arxiv.org/abs/2505.11176v2
- Date: Fri, 22 Aug 2025 16:07:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 14:39:45.205608
- Title: Enhancing and Scaling Search Query Datasets for Recommendation Systems
- Title(参考訳): 推薦システムのための検索クエリデータセットの強化とスケーリング
- Authors: Aaron Rodrigues, Mahmood Hegazy, Azzam Naeem,
- Abstract要約: 本稿では,デジタルバンキングにおける意図に基づくレコメンデーションシステムのための,検索クエリデータセットの強化と拡張を行う,実運用レベルのシステムを提案する。
提案システムは,Synthetic Query Generation,Intent Disambiguation,Intent Gap Analysisの3つのコアモジュールを統合する。
この研究は、現代のAI駆動アプリケーションにおける高品質でスケーラブルなデータの役割を強調し、価値の主要な要因としてデータ拡張に対する積極的なアプローチを提唱している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents a deployed, production-grade system designed to enhance and scale search query datasets for intent-based recommendation systems in digital banking. In real-world environments, the growing volume and complexity of user intents create substantial challenges for data management, resulting in suboptimal recommendations and delayed product onboarding. To overcome these challenges, our approach shifts the focus from model-centric enhancements to automated, data-centric strategies. The proposed system integrates three core modules: Synthetic Query Generation, Intent Disambiguation, and Intent Gap Analysis. Synthetic Query Generation produces diverse and realistic user queries. Our experiments reveal no statistically significant difference when using synthetic data for Clinc150, while Banking77 and a proprietary dataset show significant differences. We dig into the underlying factors driving these variations, demonstrating that our approach effectively alleviates the cold start problem (i.e. the challenge of recommending new products with limited historical data). Intent Disambiguation refines broad and overlapping intent categories into precise subintents, achieving an F1 score of 0.863 $\pm$ 0.127 against expert reannotations and leading to clearer differentiation and more precise recommendation mapping. Meanwhile, Intent Gap Analysis identifies latent customer needs by extracting novel intents from unlabeled queries; recovery rates reach up to 71\% in controlled evaluations. Deployed in a live banking environment, our system demonstrates significant improvements in recommendation precision and operation agility, ultimately delivering enhanced user experiences and strategic business benefits. This work underscores the role of high-quality, scalable data in modern AI-driven applications and advocates a proactive approach to data enhancement as a key driver of value.
- Abstract(参考訳): 本稿では,デジタルバンキングにおける意図に基づくレコメンデーションシステムを対象とした,検索クエリデータセットの強化と拡張を目的とした,実運用レベルのシステムを提案する。
現実の環境では、ユーザの意図の量と複雑さが増加し、データ管理に重大な課題を生じさせ、亜最適なレコメンデーションとプロダクトのオンボーディングが遅れる。
これらの課題を克服するために、私たちのアプローチは、モデル中心の強化から、自動化されたデータ中心の戦略へと焦点を移します。
提案システムは,Synthetic Query Generation,Intent Disambiguation,Intent Gap Analysisの3つのコアモジュールを統合する。
合成クエリ生成は多様な現実的なユーザクエリを生成する。
実験の結果,Clinc150の合成データを用いた場合,統計的に有意な差は認められなかった。
我々はこれらの変化を導く要因を掘り下げ、我々のアプローチがコールドスタート問題を効果的に軽減すること(すなわち、歴史データに制限のある新製品を推薦することの難しさ)を実証する。
Intent Disambiguationは、広範囲で重複する意図のカテゴリを精密なサブセントに洗練し、専門家の再注釈に対してF1スコア0.863$\pm$0.127を達成し、より明確な差別化とより正確なレコメンデーションマッピングをもたらす。
一方、Intent Gap Analysisでは、ラベルのないクエリから新しいインテントを抽出することで、潜在顧客のニーズを識別する。
ライブバンキング環境で展開された当社のシステムは,レコメンデーションの精度と運用のアジリティを大幅に向上し,最終的にユーザエクスペリエンスと戦略的ビジネスメリットを向上します。
この研究は、現代のAI駆動アプリケーションにおける高品質でスケーラブルなデータの役割を強調し、価値の主要な要因としてデータ拡張に対する積極的なアプローチを提唱している。
関連論文リスト
- Intent-Aware Neural Query Reformulation for Behavior-Aligned Product Search [0.0]
この作業では、大規模なバイヤークエリログのマイニングと分析用に設計された堅牢なデータパイプラインが導入されている。
パイプラインは、潜在購入意図を示すパターンを体系的にキャプチャし、高忠実でインテントリッチなデータセットの構築を可能にする。
本研究は,スパースユーザ入力と複雑な製品発見目標とのギャップを埋めることにおける意図中心モデリングの価値を強調した。
論文 参考訳(メタデータ) (2025-07-29T20:20:07Z) - Teaching Language Models To Gather Information Proactively [53.85419549904644]
大規模言語モデル(LLM)は、ますます協力的なパートナーとして機能することが期待されている。
本研究では,アクティブな情報収集という新たなタスクパラダイムを導入する。
キー情報をマスキングする、部分的に特定された現実世界のタスクを生成するスケーラブルなフレームワークを設計する。
このセットアップの中核となるイノベーションは、真に新しい暗黙のユーザー情報を引き出す質問に報酬を与える、強化された微調整戦略です。
論文 参考訳(メタデータ) (2025-07-28T23:50:09Z) - Privacy-Preserving Synthetic Review Generation with Diverse Writing Styles Using LLMs [6.719863580831653]
LLM(Large Language Models)によって生成された合成データは、モデルトレーニングを容易にするために、実世界のデータに代わる費用効率が高くスケーラブルな代替手段を提供する。
我々は,複数の最先端LCMから生成される合成データセットの多様性(言語表現,感情,ユーザ視点)を定量的に評価する。
評価結果を参考に,レビュアーのプライバシを保ちつつ,合成レビューの多様性を高めるために,プロンプトベースのアプローチを提案する。
論文 参考訳(メタデータ) (2025-07-24T03:12:16Z) - InfoDeepSeek: Benchmarking Agentic Information Seeking for Retrieval-Augmented Generation [63.55258191625131]
InfoDeepSeekは、現実世界の動的Web環境でエージェント情報を求めるための新しいベンチマークである。
本稿では,決定性,難易度,多様性の基準を満たす課題クエリを構築するための体系的手法を提案する。
本研究では,情報探索結果の正確性,有用性,コンパクト性に関する詳細な指標を含む,動的エージェント情報探索に適した最初の評価フレームワークを開発する。
論文 参考訳(メタデータ) (2025-05-21T14:44:40Z) - RouteNator: A Router-Based Multi-Modal Architecture for Generating Synthetic Training Data for Function Calling LLMs [3.41612427812159]
デジタルコンテンツ作成ツールでは、ユーザは、API呼び出しにマップしなければならない自然言語クエリを通じて、ニーズを表現します。
既存の合成データ生成アプローチでは、実世界のデータ分散を複製することができない。
高品質な合成学習データを生成するルータベースのアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-05-15T16:53:45Z) - From Reviews to Dialogues: Active Synthesis for Zero-Shot LLM-based Conversational Recommender System [49.57258257916805]
大きな言語モデル(LLM)は強力なゼロショットレコメンデーション機能を示している。
現実的なアプリケーションは、スケーラビリティ、解釈可能性、データプライバシの制約により、より小さく、内部的に管理された推奨モデルを好むことが多い。
能動学習技術によって導かれるブラックボックスLSMを利用して,会話学習データを合成する能動データ拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-21T23:05:47Z) - Synthetic Data Generation Using Large Language Models: Advances in Text and Code [0.0]
大規模言語モデル(LLM)は、自然言語とコードドメインの両方で合成トレーニングデータ生成を変換している。
我々は、プロンプトベースの生成、検索拡張パイプライン、反復的な自己精製といった重要なテクニックを強調した。
本稿では,生成テキストにおける事実的不正確性,文体的あるいは分布的リアリズムの不足,バイアス増幅のリスクなど,関連する課題について論じる。
論文 参考訳(メタデータ) (2025-03-18T08:34:03Z) - A Survey on Post-training of Large Language Models [185.51013463503946]
大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。
これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。
本稿では,タスク固有の精度を向上するファインチューニング,倫理的コヒーレンスと人間の嗜好との整合性を保証するアライメント,報酬設計の課題によらず多段階の推論を進める推論,統合と適応の5つのパラダイムを体系的に追跡したPoLMの総合的な調査について述べる。
論文 参考訳(メタデータ) (2025-03-08T05:41:42Z) - Second FRCSyn-onGoing: Winning Solutions and Post-Challenge Analysis to Improve Face Recognition with Synthetic Data [104.30479583607918]
第2回FRCSyn-onGoingチャレンジは、CVPR 2024で開始された第2回顔認識チャレンジ(FRCSyn)に基づいている。
我々は、顔認識における現在の課題を解決するために、個々のデータと実際のデータの組み合わせの両方で合成データの利用を検討することに重点を置いている。
論文 参考訳(メタデータ) (2024-12-02T11:12:01Z) - Understanding Synthetic Context Extension via Retrieval Heads [51.8869530817334]
本稿では,検索と推論を必要とする3つの長文タスクに対する合成データの微調整について検討する。
合成データに基づいてトレーニングされたモデルは、実際のデータには及ばないが、驚くべきことに、ミスマッチを解釈できる。
我々の結果は、合成データの微調整性能の解釈方法と、長期にわたる実世界の能力学習のためのより良いデータ作成方法に光を当てた。
論文 参考訳(メタデータ) (2024-10-29T17:55:00Z) - Towards Boosting LLMs-driven Relevance Modeling with Progressive Retrieved Behavior-augmented Prompting [23.61061000692023]
本研究では,検索ログに記録されたユーザインタラクションを活用して,ユーザの暗黙の検索意図に対する洞察を得ることを提案する。
ProRBPは,探索シナリオ指向の知識を大規模言語モデルと統合するための,プログレッシブ検索行動拡張型プロンプトフレームワークである。
論文 参考訳(メタデータ) (2024-08-18T11:07:38Z) - Towards Realistic Synthetic User-Generated Content: A Scaffolding Approach to Generating Online Discussions [17.96479268328824]
ユーザ生成コンテンツの現実的で大規模な合成データセット作成の実現可能性について検討する。
本稿では,議論スレッドのコンパクトな表現のアイデアに基づく多段階生成プロセスを提案する。
論文 参考訳(メタデータ) (2024-08-15T18:43:50Z) - Exploring Augmentation and Cognitive Strategies for AI based Synthetic Personae [1.0742675209112622]
本稿では、ゼロショットジェネレータではなく、データ拡張システムとして大規模言語モデル(LLM)を使用することを提唱する。
LLM応答をガイドする堅牢な認知・記憶フレームワークの開発を提案する。
初期の調査では、データの豊かさ、エピソード記憶、自己回帰技術が合成人格の信頼性を向上させることが示唆された。
論文 参考訳(メタデータ) (2024-04-16T20:22:12Z) - Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。