論文の概要: ReCQR: Incorporating conversational query rewriting to improve Multimodal Image Retrieval
- arxiv url: http://arxiv.org/abs/2603.26669v1
- Date: Mon, 19 Jan 2026 13:10:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:13.050883
- Title: ReCQR: Incorporating conversational query rewriting to improve Multimodal Image Retrieval
- Title(参考訳): ReCQR:マルチモーダル画像検索を改善するために会話クエリ書き換えを取り入れる
- Authors: Yuan Hu, ZhiYu Cao, PeiFeng Li, QiaoMing Zhu,
- Abstract要約: 画像検索領域に対話型クエリ書き換えタスクを導入する。
完全な対話履歴に基づいて構築されたCQRは、ユーザの最終的なクエリを簡潔でセマンティックに完全なものに書き換える。
画像検索において,複数のSOTAマルチモーダルモデルをReCQRデータセット上でベンチマークし,その性能を評価する。
- 参考スコア(独自算出の注目度): 24.076540962866236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rise of multimodal learning, image retrieval plays a crucial role in connecting visual information with natural language queries. Existing image retrievers struggle with processing long texts and handling unclear user expressions. To address these issues, we introduce the conversational query rewriting (CQR) task into the image retrieval domain and construct a dedicated multi-turn dialogue query rewriting dataset. Built on full dialogue histories, CQR rewrites users' final queries into concise, semantically complete ones that are better suited for retrieval. Specifically, We first leverage Large Language Models (LLMs) to generate rewritten candidates at scale and employ an LLM-as-Judge mechanism combined with manual review to curate approximately 7,000 high-quality multimodal dialogues, forming the ReCQR dataset. Then We benchmark several SOTA multimodal models on the ReCQR dataset to assess their performance on image retrieval. Experimental results demonstrate that CQR not only significantly enhances the accuracy of traditional image retrieval models, but also provides new directions and insights for modeling user queries in multimodal systems.
- Abstract(参考訳): マルチモーダル学習の台頭に伴い、画像検索は、視覚情報と自然言語クエリを結びつける上で重要な役割を担っている。
既存の画像検索者は、長いテキストの処理と不明瞭なユーザ表現の処理に苦労している。
これらの問題に対処するために、画像検索領域に会話クエリ書き換え(CQR)タスクを導入し、専用のマルチターン対話クエリ書き換えデータセットを構築する。
完全な対話履歴に基づいて構築されたCQRは、ユーザの最終的なクエリを、検索に適した簡潔でセマンティックな完全なクエリに書き換える。
具体的には,Large Language Models (LLM) を用いて大規模に書き直された候補を生成するとともに,手作業によるレビューと組み合わせて約7,000の高品質なマルチモーダル対話をキュレートし,ReCQRデータセットを形成する。
次に、複数のSOTAマルチモーダルモデルをReCQRデータセット上でベンチマークし、画像検索の性能を評価する。
実験の結果、CQRは従来の画像検索モデルの精度を大幅に向上するだけでなく、マルチモーダルシステムにおけるユーザクエリのモデリングのための新たな方向と洞察を提供することがわかった。
関連論文リスト
- Recurrence Meets Transformers for Universal Multimodal Retrieval [59.92546492752452]
ReT-2は画像とテキストの両方からなるマルチモーダルクエリをサポートする統合検索モデルである。
検索構成の異なるM2KRとM-BEIRのベンチマークでReT-2を評価する。
検索強化された生成パイプラインに統合されると、ReT-2はEncyclopedic-VQAとInfoSeekデータセットのダウンストリームのパフォーマンスも向上する。
論文 参考訳(メタデータ) (2025-09-10T18:00:29Z) - VisR-Bench: An Empirical Study on Visual Retrieval-Augmented Generation for Multilingual Long Document Understanding [49.07705729597171]
VisR-Benchは、長い文書における質問駆動型マルチモーダル検索のベンチマークである。
ベンチマークは、1.2Kドキュメントで35K以上の高品質なQAペアで構成されています。
テキストベースの手法,マルチモーダルエンコーダ,MLLMなど,さまざまな検索モデルを評価する。
論文 参考訳(メタデータ) (2025-08-10T21:44:43Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - MIRe: Enhancing Multimodal Queries Representation via Fusion-Free Modality Interaction for Multimodal Retrieval [26.585985828583304]
我々は、アライメント中にテキストの特徴を融合させることなく、モダリティインタラクションを実現する検索フレームワークMIReを紹介する。
提案手法では,テキスト駆動型信号を視覚表現に戻すことなく,テキストクエリを視覚埋め込みに対応させることができる。
実験により,我々の事前学習戦略はマルチモーダルクエリの理解を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-11-13T04:32:58Z) - Generating Multi-Aspect Queries for Conversational Search [6.974395116689502]
同じ検索モデルでは,nDCG@3で1回以上のリライトクエリが85%向上することを示す。
本稿ではMQ4CSと呼ばれるマルチアスペクトクエリ生成・検索フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-28T10:40:22Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - Query Resolution for Conversational Search with Limited Supervision [63.131221660019776]
本稿では,双方向トランスフォーマに基づくニューラルクエリ解決モデルQuReTeCを提案する。
我々はQuReTeCが最先端モデルより優れており、また、QuReTeCのトレーニングに必要な人為的なデータ量を大幅に削減するために、我々の遠隔監視手法が有効であることを示す。
論文 参考訳(メタデータ) (2020-05-24T11:37:22Z) - MLR: A Two-stage Conversational Query Rewriting Model with Multi-task
Learning [16.88648782206587]
本稿では,シーケンスラベリングとクエリリライトのマルチタスクモデルであるMLRを提案する。
MLRは、マルチターンの会話クエリを単一のターンクエリに再構成し、ユーザの真の意図を簡潔に伝達する。
モデルをトレーニングするために,新しい中国語クエリ書き換えデータセットを構築し,その上で実験を行う。
論文 参考訳(メタデータ) (2020-04-13T08:04:49Z) - Using Image Captions and Multitask Learning for Recommending Query
Reformulations [11.99358906295761]
商用画像検索エンジンのクエリレコメンデーションエクスペリエンスを強化することを目的としている。
提案手法は,関連文献からの最先端の実践を取り入れたものである。
論文 参考訳(メタデータ) (2020-03-02T08:22:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。