論文の概要: Multimodal Hypothetical Summary for Retrieval-based Multi-image Question Answering
- arxiv url: http://arxiv.org/abs/2412.14880v1
- Date: Thu, 19 Dec 2024 14:17:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:31:11.626102
- Title: Multimodal Hypothetical Summary for Retrieval-based Multi-image Question Answering
- Title(参考訳): 検索に基づく複数画像質問応答のためのマルチモーダル仮説概要
- Authors: Peize Li, Qingyi Si, Peng Fu, Zheng Lin, Yan Wang,
- Abstract要約: QAの学習目標が探索段階の最適化に失敗するため, 「検索・回答」パイプラインはカスケードエラーに悩まされることが多い。
本稿では,検索した情報をQAに効果的に導入し,参照するための新しい手法を提案する。
提案手法は,RETVQAの最先端手法よりも3.7%,CLIPよりも14.5%,絶対的な改善を実現している。
- 参考スコア(独自算出の注目度): 14.63910474388089
- License:
- Abstract: Retrieval-based multi-image question answering (QA) task involves retrieving multiple question-related images and synthesizing these images to generate an answer. Conventional "retrieve-then-answer" pipelines often suffer from cascading errors because the training objective of QA fails to optimize the retrieval stage. To address this issue, we propose a novel method to effectively introduce and reference retrieved information into the QA. Given the image set to be retrieved, we employ a multimodal large language model (visual perspective) and a large language model (textual perspective) to obtain multimodal hypothetical summary in question-form and description-form. By combining visual and textual perspectives, MHyS captures image content more specifically and replaces real images in retrieval, which eliminates the modality gap by transforming into text-to-text retrieval and helps improve retrieval. To more advantageously introduce retrieval with QA, we employ contrastive learning to align queries (questions) with MHyS. Moreover, we propose a coarse-to-fine strategy for calculating both sentence-level and word-level similarity scores, to further enhance retrieval and filter out irrelevant details. Our approach achieves a 3.7% absolute improvement over state-of-the-art methods on RETVQA and a 14.5% improvement over CLIP. Comprehensive experiments and detailed ablation studies demonstrate the superiority of our method.
- Abstract(参考訳): 検索型マルチイメージ質問応答(QA)タスクでは、複数の質問関連画像を検索し、これらの画像を合成して回答を生成する。
従来の"検索-回答"パイプラインは、QAのトレーニング目的が検索ステージの最適化に失敗するため、カスケードエラーに悩まされることが多い。
そこで本研究では,検索した情報をQAに効果的に導入し,参照する手法を提案する。
検索すべき画像について,多モーダルな言語モデル(視覚的視点)と多モーダルな言語モデル(テキスト的視点)を用いて,質問形式と記述形式の多モーダルな仮説的要約を得る。
視覚とテキストの視点を組み合わせることで、MHySはより具体的に画像コンテンツをキャプチャし、検索における実際の画像を置き換える。
検索をQAでより有利に導入するために,クエリ(クエスト)をMHySと整合させるために,コントラスト学習を採用する。
さらに,文レベルの類似度スコアと単語レベルの類似度スコアの両方を計算するための粗大な戦略を提案し,検索をさらに強化し,無関係な詳細をフィルタリングする。
提案手法は,RETVQAの最先端手法よりも3.7%,CLIPよりも14.5%,絶対的な改善を実現している。
包括的実験と詳細なアブレーション研究は,本手法の優位性を実証している。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Enhancing Interactive Image Retrieval With Query Rewriting Using Large Language Models and Vision Language Models [17.171715290673678]
本稿では,ユーザの関連性フィードバックに基づいてクエリを精査できる対話型画像検索システムを提案する。
本システムは,視覚言語モデル(VLM)に基づく画像キャプタを組み込んで,テキストベースのクエリの質を高める。
本システムを評価するために,MSR-VTTビデオ検索データセットを画像検索タスクに適用することにより,新たなデータセットをキュレートする。
論文 参考訳(メタデータ) (2024-04-29T14:46:35Z) - Asking Multimodal Clarifying Questions in Mixed-Initiative
Conversational Search [89.1772985740272]
混合開始型会話検索システムでは、質問を明確にすることで、意図を単一のクエリで表現するのに苦労するユーザを支援する。
マルチモーダル情報が関係するシナリオでは、非テクスチャ情報を用いることで、明確化のプロセスを改善することができると仮定する。
質問を明確にする4k以上のマルチモーダルを含むMelonというデータセットを収集し、14k以上の画像で濃縮する。
クエリの明確化フェーズにおけるマルチモーダルコンテンツの重要性を理解するために,いくつかの解析を行った。
論文 参考訳(メタデータ) (2024-02-12T16:04:01Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - Progressive Learning for Image Retrieval with Hybrid-Modality Queries [48.79599320198615]
ハイブリッドモダリティクエリによる画像検索(CTI-IR)
我々は、CTI-IRタスクを3段階の学習問題に分解し、ハイブリッドモダリティクエリを用いて画像検索のための複雑な知識を段階的に学習する。
提案モデルは,Fashion-IQおよびShoesベンチマークデータセットにおいて,Recall@K平均の最先端手法を24.9%,9.5%向上させる。
論文 参考訳(メタデータ) (2022-04-24T08:10:06Z) - Where Does the Performance Improvement Come From? - A Reproducibility
Concern about Image-Text Retrieval [85.03655458677295]
画像テキスト検索は、情報検索分野において、徐々に主要な研究方向になりつつある。
まず、画像テキスト検索タスクに焦点が当てられている理由と関連性について検討する。
本研究では,事前学習と非事前学習による検索モデルの再現の諸側面を解析する。
論文 参考訳(メタデータ) (2022-03-08T05:01:43Z) - Cross-Modal Retrieval Augmentation for Multi-Modal Classification [61.5253261560224]
画像の非構造化外部知識源とそれに対応するキャプションを用いて視覚的質問応答を改善する。
まず,画像とキャプションを同一空間に埋め込むための新しいアライメントモデルを訓練し,画像検索の大幅な改善を実現する。
第2に、トレーニングされたアライメントモデルを用いた検索強化マルチモーダルトランスは、強いベースライン上でのVQAの結果を改善することを示す。
論文 参考訳(メタデータ) (2021-04-16T13:27:45Z) - Using Image Captions and Multitask Learning for Recommending Query
Reformulations [11.99358906295761]
商用画像検索エンジンのクエリレコメンデーションエクスペリエンスを強化することを目的としている。
提案手法は,関連文献からの最先端の実践を取り入れたものである。
論文 参考訳(メタデータ) (2020-03-02T08:22:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。