論文の概要: Multi-Turn Multi-Modal Question Clarification for Enhanced Conversational Understanding
- arxiv url: http://arxiv.org/abs/2502.11442v1
- Date: Mon, 17 Feb 2025 04:58:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:17:28.074290
- Title: Multi-Turn Multi-Modal Question Clarification for Enhanced Conversational Understanding
- Title(参考訳): 会話理解の強化のためのマルチターンマルチモーダル質問の明確化
- Authors: Kimia Ramezan, Alireza Amiri Bavandpour, Yifei Yuan, Clemencia Siro, Mohammad Aliannejadi,
- Abstract要約: 本稿では,Multi-turn Multi-modal Clarifying Questions (MMCQ)タスクを紹介する。
MMCQはテキストと視覚のモダリティを組み合わせて、マルチターン会話でユーザクエリを洗練させる。
マルチターンマルチモーダルの明確化はユニモーダルとシングルターンのアプローチよりも優れ、MRRを12.88%向上させることを示した。
- 参考スコア(独自算出の注目度): 11.004677535859342
- License:
- Abstract: Conversational query clarification enables users to refine their search queries through interactive dialogue, improving search effectiveness. Traditional approaches rely on text-based clarifying questions, which often fail to capture complex user preferences, particularly those involving visual attributes. While recent work has explored single-turn multi-modal clarification with images alongside text, such methods do not fully support the progressive nature of user intent refinement over multiple turns. Motivated by this, we introduce the Multi-turn Multi-modal Clarifying Questions (MMCQ) task, which combines text and visual modalities to refine user queries in a multi-turn conversation. To facilitate this task, we create a large-scale dataset named ClariMM comprising over 13k multi-turn interactions and 33k question-answer pairs containing multi-modal clarifying questions. We propose Mario, a retrieval framework that employs a two-phase ranking strategy: initial retrieval with BM25, followed by a multi-modal generative re-ranking model that integrates textual and visual information from conversational history. Our experiments show that multi-turn multi-modal clarification outperforms uni-modal and single-turn approaches, improving MRR by 12.88%. The gains are most significant in longer interactions, demonstrating the value of progressive refinement for complex queries.
- Abstract(参考訳): 対話型クエリの明確化により,対話型対話による検索クエリの洗練が可能になり,検索効率が向上する。
従来のアプローチはテキストベースの明確な質問に依存しており、複雑なユーザの好み、特に視覚的属性を捉えるのに失敗することが多い。
最近の研究では、画像とテキストを併用した一ターンマルチモーダルの明確化が検討されているが、そのような手法は、複数回にわたるユーザ意図の洗練の進歩的な性質を完全にはサポートしていない。
そこで本研究では,テキストと視覚的モダリティを組み合わせたマルチターン・マルチモーダル・クリー化質問(MMCQ)タスクを導入し,マルチターン会話におけるユーザクエリを洗練させる。
この作業を容易にするために,13k以上のマルチターンインタラクションと,複数モーダルな質問を含む33kの質問応答ペアからなる大規模データセットClariMMを作成する。
BM25による初期検索と,対話履歴からテキスト情報と視覚情報を統合した多モード生成的再ランク付けモデルであるMarioを提案する。
実験の結果,マルチターンマルチモーダルの明確化はユニモーダルとシングルターンのアプローチよりも優れ,MRRを12.88%向上させることがわかった。
この利得は、より長い相互作用において最も重要なものであり、複雑なクエリに対するプログレッシブ・リファインメントの価値を示している。
関連論文リスト
- MIRe: Enhancing Multimodal Queries Representation via Fusion-Free Modality Interaction for Multimodal Retrieval [26.585985828583304]
我々は、アライメント中にテキストの特徴を融合させることなく、モダリティインタラクションを実現する検索フレームワークMIReを紹介する。
提案手法では,テキスト駆動型信号を視覚表現に戻すことなく,テキストクエリを視覚埋め込みに対応させることができる。
実験により,我々の事前学習戦略はマルチモーダルクエリの理解を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-11-13T04:32:58Z) - Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent [102.31558123570437]
マルチモーダル大規模言語モデル(MLLM)に固有の「ハロシン化」問題を緩和する上で,mRAG(Multimodal Retrieval Augmented Generation)が重要な役割を果たしている。
マルチモーダル検索のための自己適応型計画エージェントOmniSearchを提案する。
論文 参考訳(メタデータ) (2024-11-05T09:27:21Z) - MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。
まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。
我々は,MLLMレトリバーが提示するモダリティバイアスを軽減するために,モダリティを考慮したハードネガティブマイニングを提案する。
論文 参考訳(メタデータ) (2024-11-04T20:06:34Z) - MuRAR: A Simple and Effective Multimodal Retrieval and Answer Refinement Framework for Multimodal Question Answering [8.667894505264789]
MuRAR(Multimodal Retrieval and Answer Refinement)というフレームワークを紹介する。
MuRARは、関連するマルチモーダルデータを検索し、応答を洗練してコヒーレントなマルチモーダル回答を生成することで、テキストベースの回答を強化する。
人間の評価結果から, MuRAR が生成するマルチモーダル回答は, 平易なテキスト回答よりも有用で, 可読性が高いことが示唆された。
論文 参考訳(メタデータ) (2024-08-16T04:32:10Z) - Mixture-of-Prompt-Experts for Multi-modal Semantic Understanding [7.329728566839757]
ブロック認識型prompt Fusion (MoPE-BAF) を用いたMixture-of-prompt-Expertsを提案する。
MoPE-BAFは、統合視覚言語モデル(VLM)に基づく、新しいマルチモーダルソフトプロンプトフレームワークである。
論文 参考訳(メタデータ) (2024-03-17T19:12:26Z) - Asking Multimodal Clarifying Questions in Mixed-Initiative
Conversational Search [89.1772985740272]
混合開始型会話検索システムでは、質問を明確にすることで、意図を単一のクエリで表現するのに苦労するユーザを支援する。
マルチモーダル情報が関係するシナリオでは、非テクスチャ情報を用いることで、明確化のプロセスを改善することができると仮定する。
質問を明確にする4k以上のマルチモーダルを含むMelonというデータセットを収集し、14k以上の画像で濃縮する。
クエリの明確化フェーズにおけるマルチモーダルコンテンツの重要性を理解するために,いくつかの解析を行った。
論文 参考訳(メタデータ) (2024-02-12T16:04:01Z) - DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - Multi-Stage Conversational Passage Retrieval: An Approach to Fusing Term
Importance Estimation and Neural Query Rewriting [56.268862325167575]
マルチステージアドホックIRシステムにクエリ再構成を組み込んだ会話経路検索(ConvPR)に取り組む。
本稿では,1項の重要度推定と2項のニューラルクエリ書き換えという2つの手法を提案する。
前者に対しては、周波数に基づく信号を用いて会話コンテキストから抽出した重要な用語を用いて会話クエリを拡張する。
後者では,会話クエリを,事前訓練されたシーケンス列列列モデルを用いて,自然な,スタンドアロンの,人間の理解可能なクエリに再構成する。
論文 参考訳(メタデータ) (2020-05-05T14:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。