Fugu-MT 論文翻訳(概要): Asking Multimodal Clarifying Questions in Mixed-Initiative Conversational Search

論文の概要: Asking Multimodal Clarifying Questions in Mixed-Initiative Conversational Search

arxiv url: http://arxiv.org/abs/2402.07742v1
Date: Mon, 12 Feb 2024 16:04:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-13 13:41:10.824846
Title: Asking Multimodal Clarifying Questions in Mixed-Initiative Conversational Search
Title（参考訳）: 複合対話型検索におけるマルチモーダル明確化の課題
Authors: Yifei Yuan, Clemencia Siro, Mohammad Aliannejadi, Maarten de Rijke, Wai Lam
Abstract要約: 混合開始型会話検索システムでは、質問を明確にすることで、意図を単一のクエリで表現するのに苦労するユーザを支援する。マルチモーダル情報が関係するシナリオでは、非テクスチャ情報を用いることで、明確化のプロセスを改善することができると仮定する。質問を明確にする4k以上のマルチモーダルを含むMelonというデータセットを収集し、14k以上の画像で濃縮する。クエリの明確化フェーズにおけるマルチモーダルコンテンツの重要性を理解するために,いくつかの解析を行った。
参考スコア（独自算出の注目度）: 89.1772985740272
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: In mixed-initiative conversational search systems, clarifying questions are used to help users who struggle to express their intentions in a single query. These questions aim to uncover user's information needs and resolve query ambiguities. We hypothesize that in scenarios where multimodal information is pertinent, the clarification process can be improved by using non-textual information. Therefore, we propose to add images to clarifying questions and formulate the novel task of asking multimodal clarifying questions in open-domain, mixed-initiative conversational search systems. To facilitate research into this task, we collect a dataset named Melon that contains over 4k multimodal clarifying questions, enriched with over 14k images. We also propose a multimodal query clarification model named Marto and adopt a prompt-based, generative fine-tuning strategy to perform the training of different stages with different prompts. Several analyses are conducted to understand the importance of multimodal contents during the query clarification phase. Experimental results indicate that the addition of images leads to significant improvements of up to 90% in retrieval performance when selecting the relevant images. Extensive analyses are also performed to show the superiority of Marto compared with discriminative baselines in terms of effectiveness and efficiency.
Abstract（参考訳）: 対話型検索システムでは、質問を明確にすることで、1つのクエリで意図を表現するのに苦労しているユーザーを助ける。これらの質問は、ユーザの情報ニーズを明らかにし、クエリのあいまいさを解決することを目的としている。マルチモーダル情報が関連するシナリオでは、非テキスト情報を用いて明確化プロセスを改善することができると仮定する。そこで,本稿では,質問の明確化に画像を追加するとともに,オープンドメインの対話型検索システムにおいて,質問をマルチモーダルに問う新たなタスクを考案する。このタスクの研究を容易にするために,4k以上のマルチモーダルを含むMelonというデータセットを収集し,14k以上の画像に富む。また,マルチモーダルクエリの明確化モデルであるmartoを提案し,異なるプロンプトで異なるステージのトレーニングを行うための,プロンプトベースの生成的微調整戦略を採用する。クエリの明確化フェーズにおけるマルチモーダルコンテンツの重要性を理解するために,いくつかの分析を行った。実験結果から,画像の追加により,画像選択時の検索性能が最大90%向上することが示唆された。また, マルトの優越性を示すために, 有効性および効率性の観点から, 判別基準線との比較を行った。

関連論文リスト

Open-Ended and Knowledge-Intensive Video Question Answering [20.256081440725353]
知識集約型ビデオ質問応答 (KI-VideoQA) を多モード検索拡張世代のレンズを用いて検討する。本稿では,最先端の検索モデルと視覚言語モデルを用いて,様々な検索拡張手法について検討する。我々は、KnowIT VQAデータセットにおいて、複数の選択質問に対する精度を17.5%向上させる。
論文参考訳（メタデータ） (2025-02-17T12:40:35Z)
Multi-Turn Multi-Modal Question Clarification for Enhanced Conversational Understanding [11.004677535859342]
本稿では,Multi-turn Multi-modal Clarifying Questions (MMCQ)タスクを紹介する。 MMCQはテキストと視覚のモダリティを組み合わせて、マルチターン会話でユーザクエリを洗練させる。マルチターンマルチモーダルの明確化はユニモーダルとシングルターンのアプローチよりも優れ、MRRを12.88%向上させることを示した。
論文参考訳（メタデータ） (2025-02-17T04:58:14Z)
Multimodal Hypothetical Summary for Retrieval-based Multi-image Question Answering [14.63910474388089]
QAの学習目標が探索段階の最適化に失敗するため, 「検索・回答」パイプラインはカスケードエラーに悩まされることが多い。本稿では,検索した情報をQAに効果的に導入し,参照するための新しい手法を提案する。提案手法は,RETVQAの最先端手法よりも3.7%,CLIPよりも14.5%,絶対的な改善を実現している。
論文参考訳（メタデータ） (2024-12-19T14:17:09Z)
Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent [102.31558123570437]
マルチモーダル大規模言語モデル(MLLM)に固有の「ハロシン化」問題を緩和する上で,mRAG(Multimodal Retrieval Augmented Generation)が重要な役割を果たしている。マルチモーダル検索のための自己適応型計画エージェントOmniSearchを提案する。
論文参考訳（メタデータ） (2024-11-05T09:27:21Z)
Venn Diagram Prompting : Accelerating Comprehension with Scaffolding Effect [0.0]
本稿ではVenn Diagram (VD) Promptingを紹介した。これはLLM(Large Language Models)が文書間で情報を組み合わせて合成できる革新的なプロンプト技術である。提案手法は,LLMの固有位置バイアスを除去し,入力情報のシーケンスに対する感度を除去し,回答の一貫性を高めることを目的としている。 4つの公開ベンチマークの問合せデータセットで実施された実験では、VDは連続的に一致したり、巧妙に製作された命令プロンプトのパフォーマンスを上回ります。
論文参考訳（メタデータ） (2024-06-08T06:27:26Z)
CLARINET: Augmenting Language Models to Ask Clarification Questions for Retrieval [52.134133938779776]
CLARINETは,回答が正しい候補の確実性を最大化する質問を選択することで,情報的明確化を問うシステムである。提案手法は,大規模言語モデル(LLM)を検索分布の条件付きで拡張し,各ターンで真の候補のランクを最大化する問題を生成する。
論文参考訳（メタデータ） (2024-04-28T18:21:31Z)
End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文参考訳（メタデータ） (2023-06-01T08:04:12Z)
Zero-shot Clarifying Question Generation for Conversational Search [25.514678546942754]
本稿では,質問テンプレートとクエリファセットの両方を用いて,効果的かつ正確な質問生成を導く制約付き質問生成システムを提案する。実験の結果,提案手法は既存のゼロショットベースラインよりも大きなマージンで優れていた。
論文参考訳（メタデータ） (2023-01-30T04:43:02Z)
Exposing Query Identification for Search Transparency [69.06545074617685]
本稿では,検索システムの2つのクラスにおいて,クエリとドキュメントの役割を逆転させることにより,検索タスクとしてのEQIの実現可能性について検討する。本研究では,クエリのランク付けの質を評価するための評価基準を導出するとともに,近似EQIの様々な実践的側面に着目した経験的分析を行う。
論文参考訳（メタデータ） (2021-10-14T20:19:27Z)
Analysing the Effect of Clarifying Questions on Document Ranking in Conversational Search [10.335808358080289]
質問の明確化とユーザの回答の相違がランキングの質に与える影響について検討する。単純な語彙ベースラインを導入し、既存のナイーブベースラインを著しく上回ります。
論文参考訳（メタデータ） (2020-08-09T12:55:16Z)
Guided Transformer: Leveraging Multiple External Sources for Representation Learning in Conversational Search [36.64582291809485]
あいまいなクエリやフェースドクエリに対する質問を明確にすることは,様々な情報検索システムにおいて有用な手法として認識されている。本稿では,トランスフォーマーネットワークが学習した表現を,外部情報ソースからの新たなアテンション機構を用いて強化する。実験では,検索の明確化のための公開データセットを用いて,競合するベースラインと比較して大きな改善点を示した。
論文参考訳（メタデータ） (2020-06-13T03:24:53Z)
Multi-Stage Conversational Passage Retrieval: An Approach to Fusing Term Importance Estimation and Neural Query Rewriting [56.268862325167575]
マルチステージアドホックIRシステムにクエリ再構成を組み込んだ会話経路検索(ConvPR)に取り組む。本稿では,1項の重要度推定と2項のニューラルクエリ書き換えという2つの手法を提案する。前者に対しては、周波数に基づく信号を用いて会話コンテキストから抽出した重要な用語を用いて会話クエリを拡張する。後者では,会話クエリを,事前訓練されたシーケンス列列列モデルを用いて,自然な,スタンドアロンの,人間の理解可能なクエリに再構成する。
論文参考訳（メタデータ） (2020-05-05T14:30:20Z)
Multi-View Attention Network for Visual Dialog [5.731758300670842]
1) エージェントが質問の意味的意図を判断し, 2) 質問関連テキスト, 視覚的内容の調整を行う必要がある。異種入力に関する複数のビューを利用するマルチビュー注意ネットワーク(MVAN)を提案する。 MVANは、2つの補完モジュールでダイアログ履歴から質問関連情報を効果的にキャプチャする。
論文参考訳（メタデータ） (2020-04-29T08:46:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。