論文の概要: MERIT: Multilingual Semantic Retrieval with Interleaved Multi-Condition Query
- arxiv url: http://arxiv.org/abs/2506.03144v1
- Date: Tue, 03 Jun 2025 17:59:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.990335
- Title: MERIT: Multilingual Semantic Retrieval with Interleaved Multi-Condition Query
- Title(参考訳): MERIT:Interleaved Multi-Condition Queryによる多言語意味検索
- Authors: Wei Chow, Yuan Gao, Linfeng Li, Xian Wang, Qi Xu, Hang Song, Lingdong Kong, Ran Zhou, Yi Zeng, Yidong Cai, Botian Jiang, Shilin Xu, Jiajun Zhang, Minghui Qiu, Xiangtai Li, Tianshu Yang, Siliang Tang, Juncheng Li,
- Abstract要約: MERITは、インターリーブされたマルチ条件セマンティック検索のための最初の多言語データセットである。
本稿では,多条件セマンティック検索のための最初の多言語データセットであるMERITを紹介する。
- 参考スコア(独自算出の注目度): 55.486895951981566
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Semantic retrieval is crucial for modern applications yet remains underexplored in current research. Existing datasets are limited to single languages, single images, or singular retrieval conditions, often failing to fully exploit the expressive capacity of visual information as evidenced by maintained performance when images are replaced with captions. However, practical retrieval scenarios frequently involve interleaved multi-condition queries with multiple images. Hence, this paper introduces MERIT, the first multilingual dataset for interleaved multi-condition semantic retrieval, comprising 320,000 queries with 135,000 products in 5 languages, covering 7 distinct product categories. Extensive experiments on MERIT identify existing models's limitation: focusing solely on global semantic information while neglecting specific conditional elements in queries. Consequently, we propose Coral, a novel fine-tuning framework that adapts pre-trained MLLMs by integrating embedding reconstruction to preserve fine-grained conditional elements and contrastive learning to extract comprehensive global semantics. Experiments demonstrate that Coral achieves a 45.9% performance improvement over conventional approaches on MERIT, with strong generalization capabilities validated across 8 established retrieval benchmarks. Collectively, our contributions - a novel dataset, identification of critical limitations in existing approaches, and an innovative fine-tuning framework - establish a foundation for future research in interleaved multi-condition semantic retrieval.
- Abstract(参考訳): セマンティック検索は現代の応用には不可欠であるが、現在の研究では未解明のままである。
既存のデータセットは単一の言語、単一の画像、または特異な検索条件に限られており、画像がキャプションに置き換えられたときの持続的なパフォーマンスによって証明されるように、視覚情報の表現能力を完全に活用できないことが多い。
しかし、実用的な検索シナリオは、複数の画像を持つインターリーブされたマルチコンディションクエリを含むことが多い。
そこで本論文では,MERITについて紹介する。MERITは,5言語で135,000の製品を含む320,000のクエリからなる,多言語間セマンティック検索のための最初の多言語データセットである。
MERITに関する大規模な実験は、クエリの特定の条件要素を無視しながら、グローバルなセマンティック情報にのみ焦点をあてる、既存のモデルの制限を特定する。
そこで,我々は,埋め込み再構成を組み込んで,微細な条件要素を保存し,総合的なグローバルセマンティクスを抽出する,新たな微調整フレームワークであるCoralを提案する。
実験により、CoralはMERITの従来のアプローチよりも45.9%の性能向上を実現し、8つの確立されたベンチマークで強力な一般化能力が検証された。
我々の貢献は、新しいデータセット、既存のアプローチにおける限界の識別、そして革新的な微調整フレームワークであり、インターリーブされた多条件セマンティック検索における将来の研究の基盤を確立している。
関連論文リスト
- MultiConIR: Towards multi-condition Information Retrieval [57.6405602406446]
我々は,マルチコンディションシナリオにおける検索モデルの評価を目的とした,最初のベンチマークであるMultiConIRを紹介する。
本稿では,マルチコンディションのロバスト性,モノトニック関連性ランキング,クエリフォーマットの感度に基づいて,検索とリランクモデルの評価を行う3つのタスクを提案する。
論文 参考訳(メタデータ) (2025-03-11T05:02:03Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。
まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。
我々のモデルMM-Embedはマルチモーダル検索ベンチマークM-BEIR上で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-11-04T20:06:34Z) - MINERS: Multilingual Language Models as Semantic Retrievers [23.686762008696547]
本稿では,意味検索タスクにおける多言語言語モデルの有効性を評価するためのベンチマークであるMINERSを紹介する。
我々は,200以上の多言語にわたるサンプルの検索において,LMの堅牢性を評価する包括的なフレームワークを構築した。
以上の結果から,意味論的に類似した埋め込みを検索することで,最先端のアプローチと競合する性能が得られることが示された。
論文 参考訳(メタデータ) (2024-06-11T16:26:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。