論文の概要: Semantic-enhanced Modality-asymmetric Retrieval for Online E-commerce Search
- arxiv url: http://arxiv.org/abs/2506.20330v1
- Date: Wed, 25 Jun 2025 11:28:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.712443
- Title: Semantic-enhanced Modality-asymmetric Retrieval for Online E-commerce Search
- Title(参考訳): オンラインEコマース検索におけるセマンティック・エンハンスなモダリティ非対称検索
- Authors: Zhigong Zhou, Ning Ding, Xiaochuan Fan, Yue Shang, Yiming Qiu, Jingwei Zhuo, Zhiwei Ge, Songlin Wang, Lin Liu, Sulong Xu, Han Zhang,
- Abstract要約: 本研究では,商品の視覚情報をテキスト情報の補足として活用するマルチモーダル検索問題について検討する。
本稿では,セマンティック・エンハンスド・モダリティ-非対称レトリーバルを表すSMARという新しいモデルを提案する。
- 参考スコア(独自算出の注目度): 22.422414901767702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic retrieval, which retrieves semantically matched items given a textual query, has been an essential component to enhance system effectiveness in e-commerce search. In this paper, we study the multimodal retrieval problem, where the visual information (e.g, image) of item is leveraged as supplementary of textual information to enrich item representation and further improve retrieval performance. Though learning from cross-modality data has been studied extensively in tasks such as visual question answering or media summarization, multimodal retrieval remains a non-trivial and unsolved problem especially in the asymmetric scenario where the query is unimodal while the item is multimodal. In this paper, we propose a novel model named SMAR, which stands for Semantic-enhanced Modality-Asymmetric Retrieval, to tackle the problem of modality fusion and alignment in this kind of asymmetric scenario. Extensive experimental results on an industrial dataset show that the proposed model outperforms baseline models significantly in retrieval accuracy. We have open sourced our industrial dataset for the sake of reproducibility and future research works.
- Abstract(参考訳): セマンティック検索(セマンティック検索)は, セマンティック検索において, セマンティック検索(セマンティック検索, セマンティック検索, セマンティック検索, セマンティック検索, セマンティック検索, セマンティック検索, セマンティック検索, セマンティック検索, セマンティック検索, セマンティック検索, セマンティック検索, セマンティック検索, セマンティック検索, セマンティック検索, セマンティック検索, セマンティック検索, セマンティック検索, セマンティック検索, セマンティック検索, セマンティック検索, セマンティック検索, .
本稿では,項目の視覚情報(画像など)をテキスト情報の補足として活用し,項目表現の充実と検索性能の向上を図るマルチモーダル検索問題について検討する。
相互モダリティデータからの学習は、視覚的質問応答やメディア要約などのタスクで広く研究されているが、特にクエリが非モダリティであり、アイテムがマルチモダリティである非対称シナリオにおいて、マルチモダリティ検索は非自明で未解決な問題のままである。
本稿では,このような非対称シナリオにおけるモダリティ融合とアライメントの問題に対処するために,セマンティック・エンハンスド・モダリティ-非対称検索のためのSMARという新しいモデルを提案する。
産業データセットの大規模な実験結果から,提案モデルがベースラインモデルよりも精度が高いことが示唆された。
我々は,再現性や今後の研究のために,我々の産業データセットをオープンソース化した。
関連論文リスト
- MultiConIR: Towards multi-condition Information Retrieval [57.6405602406446]
我々は,マルチコンディションシナリオにおける検索モデルの評価を目的とした,最初のベンチマークであるMultiConIRを紹介する。
本稿では,マルチコンディションのロバスト性,モノトニック関連性ランキング,クエリフォーマットの感度に基づいて,検索とリランクモデルの評価を行う3つのタスクを提案する。
論文 参考訳(メタデータ) (2025-03-11T05:02:03Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Multimodal semantic retrieval for product search [6.185573921868495]
商品の純粋テキスト表現とは対照的に,eコマース検索における商品項目のマルチモーダル表現を構築した。
商品のマルチモーダル表現スキームは,セマンティック検索における購入リコールや関連精度の向上を示すことができることを示す。
論文 参考訳(メタデータ) (2025-01-13T14:34:26Z) - ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。
ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - Multimodal Relation Extraction with Cross-Modal Retrieval and Synthesis [89.04041100520881]
本研究は,対象物,文,画像全体に基づいて,テキストおよび視覚的証拠を検索することを提案する。
我々は,オブジェクトレベル,画像レベル,文レベル情報を合成し,同一性と異なるモダリティ間の推論を改善する新しい手法を開発した。
論文 参考訳(メタデータ) (2023-05-25T15:26:13Z) - Progressive Learning for Image Retrieval with Hybrid-Modality Queries [48.79599320198615]
ハイブリッドモダリティクエリによる画像検索(CTI-IR)
我々は、CTI-IRタスクを3段階の学習問題に分解し、ハイブリッドモダリティクエリを用いて画像検索のための複雑な知識を段階的に学習する。
提案モデルは,Fashion-IQおよびShoesベンチマークデータセットにおいて,Recall@K平均の最先端手法を24.9%,9.5%向上させる。
論文 参考訳(メタデータ) (2022-04-24T08:10:06Z) - Multi-Modal Attribute Extraction for E-Commerce [4.626261940793027]
モダリティをシームレスに組み合わせるための新しいアプローチを開発しており、これは我々の単一モダリティ調査にインスパイアされている。
楽天・一葉データの実験は、我々のアプローチの利点の実証的な証拠を提供する。
論文 参考訳(メタデータ) (2022-03-07T14:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。