論文の概要: AmazonQAC: A Large-Scale, Naturalistic Query Autocomplete Dataset
- arxiv url: http://arxiv.org/abs/2411.04129v1
- Date: Tue, 22 Oct 2024 21:11:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 12:31:20.416129
- Title: AmazonQAC: A Large-Scale, Naturalistic Query Autocomplete Dataset
- Title(参考訳): AmazonQAC: 大規模で自然なクエリオートコンプリートデータセット
- Authors: Dante Everaert, Rohit Patki, Tianqi Zheng, Christopher Potts,
- Abstract要約: 395万のサンプルからなるAmazon Searchログをソースとした,新たなQACデータセットであるAmazonQACを紹介する。
データセットには、最終検索語につながるユーザタイププレフィックスの実際のシーケンスと、セッションIDとタイムスタンプが含まれている。
修正木,意味検索,Large Language Models (LLMs) を微調整なしで評価する。
- 参考スコア(独自算出の注目度): 14.544120039123934
- License:
- Abstract: Query Autocomplete (QAC) is a critical feature in modern search engines, facilitating user interaction by predicting search queries based on input prefixes. Despite its widespread adoption, the absence of large-scale, realistic datasets has hindered advancements in QAC system development. This paper addresses this gap by introducing AmazonQAC, a new QAC dataset sourced from Amazon Search logs, comprising 395M samples. The dataset includes actual sequences of user-typed prefixes leading to final search terms, as well as session IDs and timestamps that support modeling the context-dependent aspects of QAC. We assess Prefix Trees, semantic retrieval, and Large Language Models (LLMs) with and without finetuning. We find that finetuned LLMs perform best, particularly when incorporating contextual information. However, even our best system achieves only half of what we calculate is theoretically possible on our test data, which implies QAC is a challenging problem that is far from solved with existing systems. This contribution aims to stimulate further research on QAC systems to better serve user needs in diverse environments. We open-source this data on Hugging Face at https://huggingface.co/datasets/amazon/AmazonQAC.
- Abstract(参考訳): クエリオートコンプリート (QAC) は現代の検索エンジンにおいて重要な機能であり、入力プレフィックスに基づいて検索クエリを予測することによってユーザインタラクションを容易にする。
広く採用されているにもかかわらず、大規模で現実的なデータセットの欠如は、QACシステム開発における進歩を妨げている。
本稿では,395万のサンプルからなるAmazon Searchログをソースとする新たなQACデータセットであるAmazonQACを導入することで,このギャップに対処する。
データセットには、最終検索用語につながるユーザタイププレフィックスの実際のシーケンスと、QACのコンテキスト依存的な側面のモデリングをサポートするセッションIDとタイムスタンプが含まれている。
修正木,意味検索,Large Language Models (LLMs) を微調整なしで評価する。
微調整LLMは,特に文脈情報を取り入れた場合,特に最適であることがわかった。
しかし、我々の最良のシステムでさえ、我々のテストデータでは理論的に可能であり、これはQACが既存のシステムでは解決できない難しい問題であることを意味する。
このコントリビューションは、QACシステムに関するさらなる研究を刺激し、多様な環境におけるユーザニーズによりよいサービスを提供することを目的としている。
私たちはこのデータをhttps://huggingface.co/datasets/amazon/AmazonQACで公開しています。
関連論文リスト
- IDEAL: Leveraging Infinite and Dynamic Characterizations of Large Language Models for Query-focused Summarization [59.06663981902496]
クエリ中心の要約(QFS)は、特定の関心事に答え、より優れたユーザ制御とパーソナライゼーションを可能にする要約を作成することを目的としている。
本稿では,LLMを用いたQFSモデル,Longthy Document Summarization,およびクエリ-LLMアライメントの2つの重要な特徴について検討する。
これらのイノベーションは、QFS技術分野における幅広い応用とアクセシビリティの道を開いた。
論文 参考訳(メタデータ) (2024-07-15T07:14:56Z) - DEXTER: A Benchmark for open-domain Complex Question Answering using LLMs [3.24692739098077]
オープンドメイン複合質問回答 (QA) は証拠検索と推論において難しい課題である。
我々は、オープンドメイン設定で、最先端の訓練済み高密度・スパース検索モデルを評価する。
BM25のような遅延相互作用モデルや驚くほど語彙的モデルは、事前訓練された高密度検索モデルと比較してよく機能する。
論文 参考訳(メタデータ) (2024-06-24T22:09:50Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - Seasonality Based Reranking of E-commerce Autocomplete Using Natural
Language Queries [15.37457156804212]
クエリオートコンプリート(QAC)はTypeaheadとしても知られ、検索ボックス内のユーザタイププレフィックスとして完全なクエリのリストを提案する。
typeaheadの目標のひとつは、季節的に重要なユーザに対して、関連するクエリを提案することだ。
本稿では,ニューラルネットワークに基づく自然言語処理(NLP)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-03T21:14:25Z) - Improving Text Matching in E-Commerce Search with A Rationalizable,
Intervenable and Fast Entity-Based Relevance Model [78.80174696043021]
エンティティベース関連モデル(EBRM)と呼ばれる新しいモデルを提案する。
この分解により、高精度にクロスエンコーダQE関連モジュールを使用できる。
また、ユーザログから自動生成されたQEデータによるQEモジュールの事前トレーニングにより、全体的なパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-07-01T15:44:53Z) - Learning to Retrieve Engaging Follow-Up Queries [12.380514998172199]
ユーザが持つ可能性のある次の質問を予測するための検索ベースシステムと関連するデータセットを提案する。
このようなシステムは,ユーザの知識探索を積極的に支援することで,より活発な対話を実現する。
論文 参考訳(メタデータ) (2023-02-21T20:26:23Z) - Mixed-modality Representation Learning and Pre-training for Joint
Table-and-Text Retrieval in OpenQA [85.17249272519626]
最適化された OpenQA Table-Text Retriever (OTTeR) を提案する。
検索中心の混合モード合成事前学習を行う。
OTTeRはOTT-QAデータセット上でのテーブル・アンド・テキスト検索の性能を大幅に改善する。
論文 参考訳(メタデータ) (2022-10-11T07:04:39Z) - Beyond Accuracy: A Consolidated Tool for Visual Question Answering
Benchmarking [30.155625852894797]
研究者や主催者を対象としたブラウザベースのベンチマークツールを提案する。
私たちのツールは、複数のデータセットにわたるモデルの一般化機能をテストするのに役立ちます。
対話的フィルタリングは問題のある振る舞いの発見を促進する。
論文 参考訳(メタデータ) (2021-10-11T11:08:35Z) - Session-Aware Query Auto-completion using Extreme Multi-label Ranking [61.753713147852125]
本稿では,セッション対応クエリ自動補完の新たな手法を,XMR(Multi Multi-Xtreme Ranking)問題として取り上げる。
アルゴリズムのキーステップにいくつかの修正を提案することにより、この目的のために一般的なXMRアルゴリズムを適応させる。
当社のアプローチは、セッション情報を活用しながら、自動補完システムの厳しいレイテンシ要件を満たします。
論文 参考訳(メタデータ) (2020-12-09T17:56:22Z) - Efficient Neural Query Auto Completion [17.58784759652327]
クエリオートコンプリートシステムでは,3つの大きな課題が報告されている。
従来のQACシステムは、検索ログのクエリ候補頻度などの手作り機能に依存している。
本稿では,これらの課題を克服するために,効果的なコンテキストモデリングを用いた効率的なニューラルネットワークQACシステムを提案する。
論文 参考訳(メタデータ) (2020-08-06T21:28:36Z) - Conversations with Search Engines: SERP-based Conversational Response
Generation [77.1381159789032]
我々は、検索エンジンと対話するためのパイプラインを開発するために、適切なデータセット、検索・アズ・ア・会話(SaaC)データセットを作成します。
また、このデータセットを用いて、検索エンジンと対話するための最先端パイプライン(Conversations with Search Engines (CaSE))も開発しています。
CaSEは、サポートされたトークン識別モジュールとプリア・アウェア・ポインタージェネレータを導入することで最先端を向上する。
論文 参考訳(メタデータ) (2020-04-29T13:07:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。