論文の概要: Towards Better Search with Domain-Aware Text Embeddings for C2C Marketplaces
- arxiv url: http://arxiv.org/abs/2512.21021v1
- Date: Wed, 24 Dec 2025 07:35:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.719088
- Title: Towards Better Search with Domain-Aware Text Embeddings for C2C Marketplaces
- Title(参考訳): C2C Marketplacesのためのドメイン対応テキスト埋め込みによる検索の改善に向けて
- Authors: Andre Rusli, Miao Cao, Shoma Ishimoto, Sho Akiyama, Max Frenzel,
- Abstract要約: 我々は,日本最大のC2CマーケットプレースであるMercuriにおける検索の質を向上させるために,ドメイン対応の日本語テキスト埋め込みアプローチを構築した。
生産制約を満たすために,Matryoshka Representation Learningを適用して,コンパクトでトランケーションの少ない埋め込みを実現する。
- 参考スコア(独自算出の注目度): 3.8273208793317743
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Consumer-to-consumer (C2C) marketplaces pose distinct retrieval challenges: short, ambiguous queries; noisy, user-generated listings; and strict production constraints. This paper reports our experiment to build a domain-aware Japanese text-embedding approach to improve the quality of search at Mercari, Japan's largest C2C marketplace. We experimented with fine-tuning on purchase-driven query-title pairs, using role-specific prefixes to model query-item asymmetry. To meet production constraints, we apply Matryoshka Representation Learning to obtain compact, truncation-robust embeddings. Offline evaluation on historical search logs shows consistent gains over a strong generic encoder, with particularly large improvements when replacing PCA compression with Matryoshka truncation. A manual assessment further highlights better handling of proper nouns, marketplace-specific semantics, and term-importance alignment. Additionally, an initial online A/B test demonstrates statistically significant improvements in revenue per user and search-flow efficiency, with transaction frequency maintained. Results show that domain-aware embeddings improve relevance and efficiency at scale and form a practical foundation for richer LLM-era search experiences.
- Abstract(参考訳): C2C(Consumer-to-Consumer)マーケットプレースは、短い、あいまいなクエリ、騒々しい、ユーザ生成のリスティング、厳格な生産制約など、さまざまな検索課題を提起する。
本稿では,日本最大のC2CマーケットプレースであるMercuriにおける検索の質を向上させるために,ドメイン認識型日本語テキスト埋め込み手法を構築する試みについて報告する。
そこで我々は,質問文非対称性のモデル化にロール固有プレフィックスを用いた,購入駆動型クエリタイトルペアの微調整実験を行った。
生産制約を満たすために,Matryoshka Representation Learningを適用して,コンパクトでトランケーションの少ない埋め込みを実現する。
特にPCA圧縮をMatryoshka truncationに置き換えた場合,従来の検索ログのオフライン評価では,強い汎用エンコーダよりも一貫した向上が見られた。
マニュアルアセスメントでは、適切な名詞、マーケットプレース固有のセマンティクス、およびタームインパタンスアライメントの扱いがさらに強調されている。
さらに、最初のオンラインA/Bテストでは、ユーザ当たりの収益と検索フロー効率が統計的に有意に向上し、トランザクション頻度が維持された。
以上の結果から,LLM時代の検索体験を充実させるための基礎として,ドメイン認識の埋め込みによる妥当性と効率性の向上が期待できる。
関連論文リスト
- LLMs as Sparse Retrievers:A Framework for First-Stage Product Search [103.70006474544364]
プロダクト検索は、現代のeコマースプラットフォームにおいて重要な要素であり、毎日何十億ものユーザークエリがある。
スパース検索法は語彙ミスマッチの問題に悩まされ, 製品検索のシナリオにおいて, 最適以下の性能が向上する。
セマンティック分析の可能性により、大言語モデル(LLM)は語彙ミスマッチ問題を緩和するための有望な道を提供する。
本稿では,SParsE Retrievers として LLM を利用した製品検索フレームワーク PROSPER を提案する。
論文 参考訳(メタデータ) (2025-10-21T11:13:21Z) - Generating Query-Relevant Document Summaries via Reinforcement Learning [5.651096645934245]
ReLSumは、検索関連性に最適化された製品記述のクエリ関連要約を生成するために設計された強化学習フレームワークである。
このフレームワークは、トレーニング可能な大言語モデル(LLM)を使用して要約を生成し、その後、クロスエンコーダランキングモデルの入力として使用される。
実験の結果、オンラインユーザエンゲージメント指標と同様に、リコールやNDCGを含むオフラインメトリクスの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-08-11T18:52:28Z) - Zero-Shot Retrieval for Scalable Visual Search in a Two-Sided Marketplace [0.0]
本稿では,MercuriのC2Cマーケットプレースに展開するスケーラブルなビジュアルサーチシステムを提案する。
我々は、ゼロショット画像検索のための最近の視覚言語モデルを評価し、その性能を既存の微調整ベースラインと比較する。
論文 参考訳(メタデータ) (2025-07-31T05:13:20Z) - NEAR$^2$: A Nested Embedding Approach to Efficient Product Retrieval and Ranking [14.008264174074487]
NEAR$2$と呼ばれる製品検索とランキングに対するNested Embedding Approachを提案する。
提案手法は,既存のモデルと比較して,より小さな埋め込み次元よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2025-06-24T16:02:02Z) - Automated Query-Product Relevance Labeling using Large Language Models for E-commerce Search [3.392843594990172]
クエリとプロダクトのペアをアノテートするための従来のアプローチは、人間ベースのラベリングサービスに依存している。
本研究では,Large Language Models (LLMs) が,人間ラベル作成者に必要な時間とコストのごく一部で,このタスクにおける人間レベルの精度にアプローチ可能であることを示す。
この拡張性のある人間のアノテーションの代替は、情報検索領域に重大な影響を及ぼす。
論文 参考訳(メタデータ) (2025-02-21T22:59:36Z) - Enhancing Legal Case Retrieval via Scaling High-quality Synthetic Query-Candidate Pairs [67.54302101989542]
判例検索は、ある事実記述の参照として類似した事例を提供することを目的としている。
既存の作業は主に、長いクエリを使ったケース・ツー・ケースの検索に重点を置いている。
データスケールは、既存のデータハングリーニューラルネットワークのトレーニング要件を満たすには不十分である。
論文 参考訳(メタデータ) (2024-10-09T06:26:39Z) - Relevance Filtering for Embedding-based Retrieval [46.851594313019895]
埋め込み型検索では、ANN(Approximate Nearest Neighbor)検索により、大規模データセットから類似したアイテムを効率的に検索することができる。
本稿では,この課題に対処するために,埋め込み型検索のための新しい関連フィルタリングコンポーネント("Cosine Adapter" と呼ぶ)を提案する。
少ないリコールの損失を犠牲にして、回収したセットの精度を大幅に向上することが可能です。
論文 参考訳(メタデータ) (2024-08-09T06:21:20Z) - Bridging the Domain Gaps in Context Representations for k-Nearest
Neighbor Neural Machine Translation [57.49095610777317]
$k$-Nearestの隣人機械翻訳($k$NN-MT)は、新しい翻訳ドメインに非パラメトリックに適応する能力によって注目を集めている。
本稿では,元のデータストアを再構築することで,$k$NN-MTのデータストア検索を高速化する手法を提案する。
提案手法は,$k$NN-MTのデータストア検索と翻訳品質を効果的に向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T03:04:42Z) - Evaluating Embedding APIs for Information Retrieval [51.24236853841468]
ドメインの一般化と多言語検索における既存のセマンティック埋め込みAPIの機能を評価する。
BM25の結果をAPIを使って再ランク付けすることは、予算に優しいアプローチであり、英語でもっとも効果的である。
非英語検索では、再ランク付けは結果を改善するが、BM25のハイブリッドモデルは高いコストで機能する。
論文 参考訳(メタデータ) (2023-05-10T16:40:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。