論文の概要: Asking Multimodal Clarifying Questions in Mixed-Initiative
Conversational Search
- arxiv url: http://arxiv.org/abs/2402.07742v1
- Date: Mon, 12 Feb 2024 16:04:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 13:41:10.824846
- Title: Asking Multimodal Clarifying Questions in Mixed-Initiative
Conversational Search
- Title(参考訳): 複合対話型検索におけるマルチモーダル明確化の課題
- Authors: Yifei Yuan, Clemencia Siro, Mohammad Aliannejadi, Maarten de Rijke,
Wai Lam
- Abstract要約: 混合開始型会話検索システムでは、質問を明確にすることで、意図を単一のクエリで表現するのに苦労するユーザを支援する。
マルチモーダル情報が関係するシナリオでは、非テクスチャ情報を用いることで、明確化のプロセスを改善することができると仮定する。
質問を明確にする4k以上のマルチモーダルを含むMelonというデータセットを収集し、14k以上の画像で濃縮する。
クエリの明確化フェーズにおけるマルチモーダルコンテンツの重要性を理解するために,いくつかの解析を行った。
- 参考スコア(独自算出の注目度): 89.1772985740272
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In mixed-initiative conversational search systems, clarifying questions are
used to help users who struggle to express their intentions in a single query.
These questions aim to uncover user's information needs and resolve query
ambiguities. We hypothesize that in scenarios where multimodal information is
pertinent, the clarification process can be improved by using non-textual
information. Therefore, we propose to add images to clarifying questions and
formulate the novel task of asking multimodal clarifying questions in
open-domain, mixed-initiative conversational search systems. To facilitate
research into this task, we collect a dataset named Melon that contains over 4k
multimodal clarifying questions, enriched with over 14k images. We also propose
a multimodal query clarification model named Marto and adopt a prompt-based,
generative fine-tuning strategy to perform the training of different stages
with different prompts. Several analyses are conducted to understand the
importance of multimodal contents during the query clarification phase.
Experimental results indicate that the addition of images leads to significant
improvements of up to 90% in retrieval performance when selecting the relevant
images. Extensive analyses are also performed to show the superiority of Marto
compared with discriminative baselines in terms of effectiveness and
efficiency.
- Abstract(参考訳): 対話型検索システムでは、質問を明確にすることで、1つのクエリで意図を表現するのに苦労しているユーザーを助ける。
これらの質問は、ユーザの情報ニーズを明らかにし、クエリのあいまいさを解決することを目的としている。
マルチモーダル情報が関連するシナリオでは、非テキスト情報を用いて明確化プロセスを改善することができると仮定する。
そこで,本稿では,質問の明確化に画像を追加するとともに,オープンドメインの対話型検索システムにおいて,質問をマルチモーダルに問う新たなタスクを考案する。
このタスクの研究を容易にするために,4k以上のマルチモーダルを含むMelonというデータセットを収集し,14k以上の画像に富む。
また,マルチモーダルクエリの明確化モデルであるmartoを提案し,異なるプロンプトで異なるステージのトレーニングを行うための,プロンプトベースの生成的微調整戦略を採用する。
クエリの明確化フェーズにおけるマルチモーダルコンテンツの重要性を理解するために,いくつかの分析を行った。
実験結果から,画像の追加により,画像選択時の検索性能が最大90%向上することが示唆された。
また, マルトの優越性を示すために, 有効性および効率性の観点から, 判別基準線との比較を行った。
関連論文リスト
- Visual Haystacks: Answering Harder Questions About Sets of Images [63.296342841358815]
本稿では,Multi-Image Visual Question Answering(MIQA)の課題について検討する。
大量の画像と自然言語クエリが与えられたら、そのタスクは関連性があり、接地された応答を生成することだ。
大規模マルチモーダルモデル(LMM)に適した新しい検索/QAフレームワークであるMIRAGEを紹介する。
論文 参考訳(メタデータ) (2024-07-18T17:59:30Z) - Venn Diagram Prompting : Accelerating Comprehension with Scaffolding Effect [0.0]
本稿ではVenn Diagram (VD) Promptingを紹介した。これはLLM(Large Language Models)が文書間で情報を組み合わせて合成できる革新的なプロンプト技術である。
提案手法は,LLMの固有位置バイアスを除去し,入力情報のシーケンスに対する感度を除去し,回答の一貫性を高めることを目的としている。
4つの公開ベンチマークの問合せデータセットで実施された実験では、VDは連続的に一致したり、巧妙に製作された命令プロンプトのパフォーマンスを上回ります。
論文 参考訳(メタデータ) (2024-06-08T06:27:26Z) - CLARINET: Augmenting Language Models to Ask Clarification Questions for Retrieval [52.134133938779776]
CLARINETは,回答が正しい候補の確実性を最大化する質問を選択することで,情報的明確化を問うシステムである。
提案手法は,大規模言語モデル(LLM)を検索分布の条件付きで拡張し,各ターンで真の候補のランクを最大化する問題を生成する。
論文 参考訳(メタデータ) (2024-04-28T18:21:31Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - Zero-shot Clarifying Question Generation for Conversational Search [25.514678546942754]
本稿では,質問テンプレートとクエリファセットの両方を用いて,効果的かつ正確な質問生成を導く制約付き質問生成システムを提案する。
実験の結果,提案手法は既存のゼロショットベースラインよりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2023-01-30T04:43:02Z) - Exposing Query Identification for Search Transparency [69.06545074617685]
本稿では,検索システムの2つのクラスにおいて,クエリとドキュメントの役割を逆転させることにより,検索タスクとしてのEQIの実現可能性について検討する。
本研究では,クエリのランク付けの質を評価するための評価基準を導出するとともに,近似EQIの様々な実践的側面に着目した経験的分析を行う。
論文 参考訳(メタデータ) (2021-10-14T20:19:27Z) - Analysing the Effect of Clarifying Questions on Document Ranking in
Conversational Search [10.335808358080289]
質問の明確化とユーザの回答の相違がランキングの質に与える影響について検討する。
単純な語彙ベースラインを導入し、既存のナイーブベースラインを著しく上回ります。
論文 参考訳(メタデータ) (2020-08-09T12:55:16Z) - Guided Transformer: Leveraging Multiple External Sources for
Representation Learning in Conversational Search [36.64582291809485]
あいまいなクエリやフェースドクエリに対する質問を明確にすることは,様々な情報検索システムにおいて有用な手法として認識されている。
本稿では,トランスフォーマーネットワークが学習した表現を,外部情報ソースからの新たなアテンション機構を用いて強化する。
実験では,検索の明確化のための公開データセットを用いて,競合するベースラインと比較して大きな改善点を示した。
論文 参考訳(メタデータ) (2020-06-13T03:24:53Z) - Multi-Stage Conversational Passage Retrieval: An Approach to Fusing Term
Importance Estimation and Neural Query Rewriting [56.268862325167575]
マルチステージアドホックIRシステムにクエリ再構成を組み込んだ会話経路検索(ConvPR)に取り組む。
本稿では,1項の重要度推定と2項のニューラルクエリ書き換えという2つの手法を提案する。
前者に対しては、周波数に基づく信号を用いて会話コンテキストから抽出した重要な用語を用いて会話クエリを拡張する。
後者では,会話クエリを,事前訓練されたシーケンス列列列モデルを用いて,自然な,スタンドアロンの,人間の理解可能なクエリに再構成する。
論文 参考訳(メタデータ) (2020-05-05T14:30:20Z) - Multi-View Attention Network for Visual Dialog [5.731758300670842]
1) エージェントが質問の意味的意図を判断し, 2) 質問関連テキスト, 視覚的内容の調整を行う必要がある。
異種入力に関する複数のビューを利用するマルチビュー注意ネットワーク(MVAN)を提案する。
MVANは、2つの補完モジュールでダイアログ履歴から質問関連情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2020-04-29T08:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。