論文の概要: Do Images Clarify? A Study on the Effect of Images on Clarifying Questions in Conversational Search
- arxiv url: http://arxiv.org/abs/2602.08700v1
- Date: Mon, 09 Feb 2026 14:16:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.27875
- Title: Do Images Clarify? A Study on the Effect of Images on Clarifying Questions in Conversational Search
- Title(参考訳): 画像は明確か? : 会話探索における画像が質問の明確化に及ぼす影響に関する研究
- Authors: Clemencia Siro, Zahra Abbasiantaeb, Yifei Yuan, Mohammad Aliannejadi, Maarten de Rijke,
- Abstract要約: 73名の被験者を対象に,会話検索における画像の役割を調査する。
我々は,対話型検索コンテキストにおける両タスクにおける多モーダルとテキストのみによる質問の明確化の効果を比較した。
- 参考スコア(独自算出の注目度): 59.907919633904775
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Conversational search systems increasingly employ clarifying questions to refine user queries and improve the search experience. Previous studies have demonstrated the usefulness of text-based clarifying questions in enhancing both retrieval performance and user experience. While images have been shown to improve retrieval performance in various contexts, their impact on user performance when incorporated into clarifying questions remains largely unexplored. We conduct a user study with 73 participants to investigate the role of images in conversational search, specifically examining their effects on two search-related tasks: (i) answering clarifying questions and (ii) query reformulation. We compare the effect of multimodal and text-only clarifying questions in both tasks within a conversational search context from various perspectives. Our findings reveal that while participants showed a strong preference for multimodal questions when answering clarifying questions, preferences were more balanced in the query reformulation task. The impact of images varied with both task type and user expertise. In answering clarifying questions, images helped maintain engagement across different expertise levels, while in query reformulation they led to more precise queries and improved retrieval performance. Interestingly, for clarifying question answering, text-only setups demonstrated better user performance as they provided more comprehensive textual information in the absence of images. These results provide valuable insights for designing effective multimodal conversational search systems, highlighting that the benefits of visual augmentation are task-dependent and should be strategically implemented based on the specific search context and user characteristics.
- Abstract(参考訳): 会話型検索システムでは,質問を明確にすることでユーザクエリを洗練し,検索エクスペリエンスを向上する傾向にある。
従来,検索性能とユーザエクスペリエンスの両面において,テキストによる質問の明確化が有用であったことが実証されてきた。
画像は様々な文脈で検索性能を向上させることが示されているが、明確な質問に組み込んだ場合のユーザパフォーマンスへの影響は未解明のままである。
73名の被験者を対象に,会話検索における画像の役割を調査し,特に2つの検索関連課題に対する効果について検討する。
一 質問の明確化及び回答
(二)照会の改定
様々な視点から,対話型検索コンテキストにおける両タスクにおける質問の多モーダルとテキストのみの明確化の効果を比較した。
その結果,質問内容の明確化に際し,参加者はマルチモーダル質問を強く好む一方で,質問内容の整理作業において,よりバランスがとれたことが判明した。
イメージの影響は、タスクタイプとユーザの専門性の両方によって様々である。
明確な質問に答えると、画像はさまざまな専門レベルのエンゲージメントを維持するのに役立ち、クエリのリフォームではより正確なクエリが得られ、検索性能が向上した。
興味深いことに、質問応答を明確にするために、テキストのみのセットアップは、画像がない場合により包括的なテキスト情報を提供するので、より良いユーザパフォーマンスを示した。
これらの結果は,視覚的拡張の利点はタスク依存であり,特定の検索コンテキストとユーザ特性に基づいて戦略的に実装されるべきであることを強調して,効果的なマルチモーダル対話型検索システムの設計に有用な洞察を与える。
関連論文リスト
- Exploring Rewriting Approaches for Different Conversational Tasks [63.56404271441824]
正確な書き換えアプローチは、しばしば、会話アシスタントによってサポートされているユースケースとアプリケーション固有のタスクに依存します。
基本的に異なる2つの生成タスクに対して,書き換えと融合という2つの異なるアプローチを体系的に検討した。
以上の結果から, 特定の書き換え手法や融合手法は, 基礎となるユースケースや生成課題に大きく依存していることが示唆された。
論文 参考訳(メタデータ) (2025-02-26T06:05:29Z) - Open-Ended and Knowledge-Intensive Video Question Answering [20.256081440725353]
知識集約型ビデオ質問応答 (KI-VideoQA) を多モード検索拡張世代のレンズを用いて検討する。
本稿では,最先端の検索モデルと視覚言語モデルを用いて,様々な検索拡張手法について検討する。
我々は、KnowIT VQAデータセットにおいて、複数の選択質問に対する精度を17.5%向上させる。
論文 参考訳(メタデータ) (2025-02-17T12:40:35Z) - Can Users Detect Biases or Factual Errors in Generated Responses in Conversational Information-Seeking? [13.790574266700006]
対話型情報検索システムにおける応答生成の限界について検討する。
本研究は,問合せ応答性の問題と応答不完全性の課題に対処する。
分析の結果,クエリ応答性よりも応答不完全性の検出が容易であることが判明した。
論文 参考訳(メタデータ) (2024-10-28T20:55:00Z) - Asking Multimodal Clarifying Questions in Mixed-Initiative
Conversational Search [89.1772985740272]
混合開始型会話検索システムでは、質問を明確にすることで、意図を単一のクエリで表現するのに苦労するユーザを支援する。
マルチモーダル情報が関係するシナリオでは、非テクスチャ情報を用いることで、明確化のプロセスを改善することができると仮定する。
質問を明確にする4k以上のマルチモーダルを含むMelonというデータセットを収集し、14k以上の画像で濃縮する。
クエリの明確化フェーズにおけるマルチモーダルコンテンツの重要性を理解するために,いくつかの解析を行った。
論文 参考訳(メタデータ) (2024-02-12T16:04:01Z) - Estimating the Usefulness of Clarifying Questions and Answers for
Conversational Search [17.0363715044341]
本稿では,質問を明確化するための回答処理手法を提案する。
具体的には,利用者が提示した質問と回答の提示による有用性を評価するための分類器を提案する。
その結果, 強い非混合開始基線よりも顕著な改善が認められた。
論文 参考訳(メタデータ) (2024-01-21T11:04:30Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - From A Glance to "Gotcha": Interactive Facial Image Retrieval with
Progressive Relevance Feedback [72.29919762941029]
本稿では,目撃者から徐々にフィードバックを得て顔画像を取得するためのエンドツーエンドフレームワークを提案する。
追加のアノテーションを必要とせずに、私たちのモデルは少しのレスポンスの努力を犠牲にして適用できます。
論文 参考訳(メタデータ) (2020-07-30T18:46:25Z) - Guided Transformer: Leveraging Multiple External Sources for
Representation Learning in Conversational Search [36.64582291809485]
あいまいなクエリやフェースドクエリに対する質問を明確にすることは,様々な情報検索システムにおいて有用な手法として認識されている。
本稿では,トランスフォーマーネットワークが学習した表現を,外部情報ソースからの新たなアテンション機構を用いて強化する。
実験では,検索の明確化のための公開データセットを用いて,競合するベースラインと比較して大きな改善点を示した。
論文 参考訳(メタデータ) (2020-06-13T03:24:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。