論文の概要: Shopping Queries Image Dataset (SQID): An Image-Enriched ESCI Dataset for Exploring Multimodal Learning in Product Search
- arxiv url: http://arxiv.org/abs/2405.15190v1
- Date: Fri, 24 May 2024 03:50:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 00:01:58.254919
- Title: Shopping Queries Image Dataset (SQID): An Image-Enriched ESCI Dataset for Exploring Multimodal Learning in Product Search
- Title(参考訳): ショッピングクエリ画像データセット(SQID):製品検索におけるマルチモーダル学習の探索のための画像強化ESCIデータセット
- Authors: Marie Al Ghossein, Ching-Wei Chen, Jason Tang,
- Abstract要約: Shopping Queriesイメージデータセット(SQID)は、Amazon Shopping Queriesデータセットの拡張で、190,000の製品に関連するイメージ情報に富んでいる。
視覚情報を統合することで、SQIDは製品検索とランキングを改善するためのマルチモーダル学習技術の研究を促進する。
本稿では,SQIDと事前学習モデルを用いて,検索とランキングにマルチモーダルデータを用いることの価値を示す実験結果を提案する。
- 参考スコア(独自算出の注目度): 0.6106642353538779
- License:
- Abstract: Recent advances in the fields of Information Retrieval and Machine Learning have focused on improving the performance of search engines to enhance the user experience, especially in the world of online shopping. The focus has thus been on leveraging cutting-edge learning techniques and relying on large enriched datasets. This paper introduces the Shopping Queries Image Dataset (SQID), an extension of the Amazon Shopping Queries Dataset enriched with image information associated with 190,000 products. By integrating visual information, SQID facilitates research around multimodal learning techniques that can take into account both textual and visual information for improving product search and ranking. We also provide experimental results leveraging SQID and pretrained models, showing the value of using multimodal data for search and ranking. SQID is available at: https://github.com/Crossing-Minds/shopping-queries-image-dataset.
- Abstract(参考訳): 情報検索と機械学習の分野における最近の進歩は、特にオンラインショッピングの世界において、ユーザー体験を向上させるために検索エンジンの性能向上に重点を置いている。
それゆえ、最先端の学習技術を活用することに注力し、大規模なリッチなデータセットに依存している。
本稿では,Amazon Shopping Queries Datasetの拡張であるShopping Queries Image Dataset(SQID)について紹介する。
視覚情報を統合することで、SQIDは、テキスト情報と視覚情報の両方を考慮し、製品検索とランキングを改善するマルチモーダル学習技術の研究を促進する。
また、SQIDと事前学習モデルを利用した実験結果を提供し、検索とランキングにマルチモーダルデータを使用することの価値を示す。
SQID は https://github.com/Crossing-Minds/shopping-queries-image-dataset で利用可能である。
関連論文リスト
- Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.24395216111462]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。
この目的のために設計された新しいデータセットであるMMTabQAを紹介する。
我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-08-25T15:17:43Z) - Align before Search: Aligning Ads Image to Text for Accurate Cross-Modal
Sponsored Search [27.42717207107]
クロスモーダルスポンサー検索は、消費者が検索エンジンで自然言語クエリーによって望ましい商品を探す際に、マルチモーダル広告(ads)を表示する。
画像とテキストの両方で広告特有の情報を調整できることは、正確で柔軟なスポンサー付き検索に不可欠だ。
広告画像の細粒度部分を対応するテキストに明示的にマッピングする単純なアライメントネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-28T03:43:57Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - Automated Extraction of Fine-Grained Standardized Product Information
from Unstructured Multilingual Web Data [66.21317300595483]
機械学習の最近の進歩と最近発表された多言語データセットが組み合わさって、堅牢な製品属性抽出を可能にしていることを示す。
私たちのモデルは、オンラインショップや言語、あるいはその両方で、確実に製品属性を予測できます。
論文 参考訳(メタデータ) (2023-02-23T16:26:11Z) - Visually Similar Products Retrieval for Shopsy [0.0]
マルチタスク学習手法を用いて,リセラーコマースのためのビジュアル検索システムを設計する。
我々のモデルは属性分類、三重項ランク付け、変分オートエンコーダ(VAE)の3つの異なるタスクからなる。
論文 参考訳(メタデータ) (2022-10-10T10:59:18Z) - Shopping Queries Dataset: A Large-Scale ESCI Benchmark for Improving
Product Search [26.772851310517954]
本稿では,難解なAmazon検索クエリと結果の大規模なデータセットである“ショッピングクエリデータセット”を紹介する。
データセットには、約130万のユニークなクエリと、手作業による(製品)関連判断が260万個含まれている。
データセットはKDDCup'22の課題のひとつで使用されている。
論文 参考訳(メタデータ) (2022-06-14T04:25:26Z) - Progressive Learning for Image Retrieval with Hybrid-Modality Queries [48.79599320198615]
ハイブリッドモダリティクエリによる画像検索(CTI-IR)
我々は、CTI-IRタスクを3段階の学習問題に分解し、ハイブリッドモダリティクエリを用いて画像検索のための複雑な知識を段階的に学習する。
提案モデルは,Fashion-IQおよびShoesベンチマークデータセットにおいて,Recall@K平均の最先端手法を24.9%,9.5%向上させる。
論文 参考訳(メタデータ) (2022-04-24T08:10:06Z) - Single-Modal Entropy based Active Learning for Visual Question Answering [75.1682163844354]
視覚質問応答(VQA)のマルチモーダル設定におけるアクティブラーニングに対処する
マルチモーダルな入力,画像,質問を考慮し,有効サンプル取得のための新しい手法を提案する。
私たちの新しいアイデアは、実装が簡単で、コスト効率が高く、他のマルチモーダルタスクにも容易に適応できます。
論文 参考訳(メタデータ) (2021-10-21T05:38:45Z) - Exposing Query Identification for Search Transparency [69.06545074617685]
本稿では,検索システムの2つのクラスにおいて,クエリとドキュメントの役割を逆転させることにより,検索タスクとしてのEQIの実現可能性について検討する。
本研究では,クエリのランク付けの質を評価するための評価基準を導出するとともに,近似EQIの様々な実践的側面に着目した経験的分析を行う。
論文 参考訳(メタデータ) (2021-10-14T20:19:27Z) - eProduct: A Million-Scale Visual Search Benchmark to Address Product
Recognition Challenges [8.204924070199866]
eProductは、実世界のさまざまなビジュアル検索ソリューションのトレーニングと評価のためのベンチマークデータセットである。
本稿では,eProductをトレーニングセットと評価セットとして提示し,トレーニングセットには1.3M+のタイトル付き画像と階層的カテゴリラベルが記載されている。
本稿では,eProductの構成手順,多様性の分析,トレーニングしたベースラインモデルの性能について紹介する。
論文 参考訳(メタデータ) (2021-07-13T05:28:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。