論文の概要: Large Language Models for Relevance Judgment in Product Search
- arxiv url: http://arxiv.org/abs/2406.00247v1
- Date: Sat, 1 Jun 2024 00:52:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 08:04:10.311458
- Title: Large Language Models for Relevance Judgment in Product Search
- Title(参考訳): 製品検索における関連判断のための大規模言語モデル
- Authors: Navid Mehrdad, Hrushikesh Mohapatra, Mossaab Bagdouri, Prijith Chandran, Alessandro Magnani, Xunfan Cai, Ajit Puthenputhussery, Sachin Yadav, Tony Lee, ChengXiang Zhai, Ciya Liao,
- Abstract要約: 検索クエリに対する検索および再ランクされたアイテムの高い関連性は、製品検索の成功の土台である。
本稿では,大規模言語モデル(LLM)を活用して,クエリ・イテムペア(QIP)の関連判断を大規模に自動化する手法について述べる。
本研究は,製品検索における関連判断の自動化の分野への直接的な影響を示唆するものである。
- 参考スコア(独自算出の注目度): 48.56992980315751
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High relevance of retrieved and re-ranked items to the search query is the cornerstone of successful product search, yet measuring relevance of items to queries is one of the most challenging tasks in product information retrieval, and quality of product search is highly influenced by the precision and scale of available relevance-labelled data. In this paper, we present an array of techniques for leveraging Large Language Models (LLMs) for automating the relevance judgment of query-item pairs (QIPs) at scale. Using a unique dataset of multi-million QIPs, annotated by human evaluators, we test and optimize hyper parameters for finetuning billion-parameter LLMs with and without Low Rank Adaption (LoRA), as well as various modes of item attribute concatenation and prompting in LLM finetuning, and consider trade offs in item attribute inclusion for quality of relevance predictions. We demonstrate considerable improvement over baselines of prior generations of LLMs, as well as off-the-shelf models, towards relevance annotations on par with the human relevance evaluators. Our findings have immediate implications for the growing field of relevance judgment automation in product search.
- Abstract(参考訳): 検索クエリに対する検索および再ランク項目の高関連性は、製品検索の成功の基盤であるが、クエリに対するアイテムの関連性の測定は、製品情報検索において最も困難な課題の1つであり、製品検索の品質は、利用可能な関連ラベル付きデータの正確性とスケールの影響を強く受けている。
本稿では,大規模言語モデル (LLM) を利用したクエリ-イム対 (QIP) の関連判断を大規模に行うための一連の手法を提案する。
マルチミリオンQIPのユニークなデータセットを用いて,低ランク適応 (LoRA) と低ランク適応 (LoRA) を併用した10億パラメトリックLCMの微調整のためのハイパーパラメータのテストと最適化を行い,LCMファインタニングにおけるアイテム属性の結合と促進の様々なモードについて検討し,関連性予測の品質に対するアイテム属性の包摂性を考慮したトレードオフを検討する。
我々は,従来のLLMのベースライン,および市販のモデルに対して,人間の関連性評価値と同等の関連アノテーションに対して,大幅に改善されていることを示す。
本研究は,製品検索における関連判断の自動化の分野への直接的な影響を示唆するものである。
関連論文リスト
- Optimizing Novelty of Top-k Recommendations using Large Language Models and Reinforcement Learning [16.287067991245962]
現実世界のシステムでは、新しいモデルに対する重要な考慮は、トップkレコメンデーションの新規性である。
本稿では,大規模言語モデルが新しい項目に対するフィードバックを提供する強化学習(RL)の定式化を提案する。
大規模検索エンジンにおけるクエリーアドレコメンデーションタスクの新規性向上のための提案アルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2024-06-20T10:20:02Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases [93.96463520716759]
テキストとKのガベージベース上での大規模半構造検索ベンチマークSTARKを開発する。
本ベンチマークでは, 製品検索, 学術論文検索, 精密医療におけるクエリの3分野を対象とする。
多様なリレーショナル情報と複雑なテキスト特性を統合した,現実的なユーザクエリを合成する,新しいパイプラインを設計する。
論文 参考訳(メタデータ) (2024-04-19T22:54:54Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Multi-Conditional Ranking with Large Language Models [4.390998479503661]
大規模言語モデルを用いて項目をランク付けすることは、レコメンデーションと検索システムにおいて一般的なアプローチとなっている。
しかし、現実のシナリオは、比較的小さな項目のセットをランク付けするなど、異なる課題を呈することが多い。
本稿では, 条件を抽出し, ソルティングし, 項目を反復的にランク付けする, 分割推論手法を提案する。
論文 参考訳(メタデータ) (2024-03-30T01:26:05Z) - Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity [59.57065228857247]
Retrieval-augmented Large Language Models (LLMs) は、質問回答(QA)のようなタスクにおける応答精度を高めるための有望なアプローチとして登場した。
本稿では,クエリの複雑さに基づいて,LLMの最適戦略を動的に選択できる適応型QAフレームワークを提案する。
オープンドメインのQAデータセットを用いて、複数のクエリの複雑さを網羅し、QAシステムの全体的な効率性と精度を高めることを示す。
論文 参考訳(メタデータ) (2024-03-21T13:52:30Z) - Enhanced E-Commerce Attribute Extraction: Innovating with Decorative
Relation Correction and LLAMA 2.0-Based Annotation [4.81846973621209]
本稿では,分類のためのBERT,属性値抽出のための条件付きランダムフィールド(CRF)層,データアノテーションのための大規模言語モデル(LLM)を統合した先駆的フレームワークを提案する。
提案手法は, CRFのシーケンス復号技術と相乗化したBERTの頑健な表現学習を利用して, 属性値の同定と抽出を行う。
私たちの方法論は、Walmart、BestBuyのEコマースNERデータセット、CoNLLデータセットなど、さまざまなデータセットで厳格に検証されています。
論文 参考訳(メタデータ) (2023-12-09T08:26:30Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Multi-Label Learning to Rank through Multi-Objective Optimization [9.099663022952496]
近年,情報検索システムではランク付け技法の学習が至るところで行われている。
あいまいさを解決するためには、多くの関連基準を用いてモデルを訓練することが望ましい。
本稿では,ラベルからの情報を様々な方法で組み合わせて,目標間のトレードオフを特徴付ける,汎用的な枠組みを提案する。
論文 参考訳(メタデータ) (2022-07-07T03:02:11Z) - Shopping Queries Dataset: A Large-Scale ESCI Benchmark for Improving
Product Search [26.772851310517954]
本稿では,難解なAmazon検索クエリと結果の大規模なデータセットである“ショッピングクエリデータセット”を紹介する。
データセットには、約130万のユニークなクエリと、手作業による(製品)関連判断が260万個含まれている。
データセットはKDDCup'22の課題のひとつで使用されている。
論文 参考訳(メタデータ) (2022-06-14T04:25:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。