論文の概要: Rethinking E-Commerce Search
- arxiv url: http://arxiv.org/abs/2312.03217v1
- Date: Wed, 6 Dec 2023 01:15:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 16:14:57.131011
- Title: Rethinking E-Commerce Search
- Title(参考訳): 電子商取引検索の再考
- Authors: Haixun Wang, Taesik Na
- Abstract要約: 電子商取引の検索とレコメンデーションは、通常、製品カタログやカタログのような構造化されたデータを扱う。
我々は、非構造化データ(Webページ、顧客レビューなど)を構造化データに変換する代わりに、構造化データをテキストデータに変換するソリューションを構想する。
- 参考スコア(独自算出の注目度): 5.343349451149467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: E-commerce search and recommendation usually operate on structured data such
as product catalogs and taxonomies. However, creating better search and
recommendation systems often requires a large variety of unstructured data
including customer reviews and articles on the web. Traditionally, the solution
has always been converting unstructured data into structured data through
information extraction, and conducting search over the structured data.
However, this is a costly approach that often has low quality. In this paper,
we envision a solution that does entirely the opposite. Instead of converting
unstructured data (web pages, customer reviews, etc) to structured data, we
instead convert structured data (product inventory, catalogs, taxonomies, etc)
into textual data, which can be easily integrated into the text corpus that
trains LLMs. Then, search and recommendation can be performed through a Q/A
mechanism through an LLM instead of using traditional information retrieval
methods over structured data.
- Abstract(参考訳): eコマース検索とレコメンデーションは通常、製品カタログや分類法などの構造化データに基づいて行われる。
しかし、より良い検索とレコメンデーションシステムを作成するには、web上の顧客レビューや記事を含む、多くの非構造化データが必要である。
従来、このソリューションは、非構造化データを情報抽出を通じて構造化データに変換し、構造化データの検索を実行してきた。
しかし、これはしばしば品質が低いコストのかかるアプローチです。
本稿では,正反対の解を想定する。
非構造化データ(webページ、顧客レビューなど)を構造化データに変換する代わりに、構造化データ(製品インベントリ、カタログ、分類学など)をテキストデータに変換することで、llmをトレーニングするテキストコーパスに容易に統合することができます。
そして、構造化データ上の従来の情報検索手法の代わりに、LLMを介してQ/A機構を介して検索と推薦を行う。
関連論文リスト
- STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases [93.96463520716759]
テキストとリレーショナルベース知識に関する大規模半構造検索ベンチマークSTARKを開発した。
多様な情報と複雑なテキスト特性を統合した,自然かつ現実的なユーザクエリを合成する,新しいパイプラインを設計する。
本ベンチマークは,検索システムの性能評価のための総合的なテストベッドとして機能する。
論文 参考訳(メタデータ) (2024-04-19T22:54:54Z) - Beyond Extraction: Contextualising Tabular Data for Efficient
Summarisation by Language Models [0.0]
Retrieval-Augmented Generation アーキテクチャの従来の利用は、様々な文書から情報を取得するのに有効であることが証明されている。
本研究では,RAGに基づくシステムにおいて,複雑なテーブルクエリの精度を高めるための革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-01-04T16:16:14Z) - dIR -- Discrete Information Retrieval: Conversational Search over
Unstructured (and Structured) Data with Large Language Models [0.16060477887377675]
本稿では,自由テキストと構造化知識の両方を問う統一インターフェースとして,dIR,disrete Information Retrievalを提案する。
我々は、独自の質問/回答データセットを用いて、我々のアプローチを検証し、dIRがフリーテキスト上で全く新しいクエリーのクラスを作成できると結論付けた。
論文 参考訳(メタデータ) (2023-12-20T18:41:44Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - SPM: Structured Pretraining and Matching Architectures for Relevance
Modeling in Meituan Search [12.244685291395093]
eコマース検索では、クエリとドキュメントの関連性は、ユーザエクスペリエンスを満たす上で必須の要件である。
本稿では,リッチな構造化文書に適合する2段階の事前学習およびマッチングアーキテクチャを提案する。
このモデルは、すでにオンラインで展開されており、Meituanの検索トラフィックを1年以上にわたって提供している。
論文 参考訳(メタデータ) (2023-08-15T11:45:34Z) - Cross Modal Data Discovery over Structured and Unstructured Data Lakes [5.270224494298927]
組織はデータ駆動意思決定のために、ますます大量のデータを集めています。
これらのデータは、数千の構造化データセットと非構造化データセットからなる集中型リポジトリにダンプされることが多い。
逆に、そのようなデータセットの混合は、ユーザのクエリや分析タスクに関連する要素を発見することを非常に困難にしている。
論文 参考訳(メタデータ) (2023-06-01T17:34:42Z) - StructGPT: A General Framework for Large Language Model to Reason over
Structured Data [117.13986738340027]
我々は,構造化データに基づく質問応答タスクの解法として,emphIterative Reading-then-Reasoning(IRR)アプローチを開発した。
提案手法はChatGPTの性能を大幅に向上させ,全データの教師付きベースラインに対して同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-16T17:45:23Z) - Automated Extraction of Fine-Grained Standardized Product Information
from Unstructured Multilingual Web Data [66.21317300595483]
機械学習の最近の進歩と最近発表された多言語データセットが組み合わさって、堅牢な製品属性抽出を可能にしていることを示す。
私たちのモデルは、オンラインショップや言語、あるいはその両方で、確実に製品属性を予測できます。
論文 参考訳(メタデータ) (2023-02-23T16:26:11Z) - Graph integration of structured, semistructured and unstructured data
for data journalism [4.508924138721326]
ヘテロジニアスデータセットの動的集合を統合するための完全なアプローチについて述べる。
提案手法はConnectionLensシステム内に実装されており,一連の実験を通じて検証する。
論文 参考訳(メタデータ) (2020-12-16T09:59:27Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。