論文の概要: VQA4CIR: Boosting Composed Image Retrieval with Visual Question
Answering
- arxiv url: http://arxiv.org/abs/2312.12273v1
- Date: Tue, 19 Dec 2023 15:56:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 15:04:54.726079
- Title: VQA4CIR: Boosting Composed Image Retrieval with Visual Question
Answering
- Title(参考訳): VQA4CIR:ビジュアル質問応答による合成画像検索の強化
- Authors: Chun-Mei Feng, Yang Bai, Tao Luo, Zhen Li, Salman Khan, Wangmeng Zuo,
Xinxing Xu, Rick Siow Mong Goh, Yong Liu
- Abstract要約: この作業は、CIRのパフォーマンスを高めるために、Visual Question Answering(VQA)の視点を提供する。
結果として生じるVQA4CIRは後処理のアプローチであり、既存のCIRメソッドに直接接続することができる。
実験の結果,提案手法はCIRRおよびFashion-IQデータセット上での最先端CIR法よりも優れていた。
- 参考スコア(独自算出の注目度): 68.47402250389685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Albeit progress has been made in Composed Image Retrieval (CIR), we
empirically find that a certain percentage of failure retrieval results are not
consistent with their relative captions. To address this issue, this work
provides a Visual Question Answering (VQA) perspective to boost the performance
of CIR. The resulting VQA4CIR is a post-processing approach and can be directly
plugged into existing CIR methods. Given the top-C retrieved images by a CIR
method, VQA4CIR aims to decrease the adverse effect of the failure retrieval
results being inconsistent with the relative caption. To find the retrieved
images inconsistent with the relative caption, we resort to the "QA generation
to VQA" self-verification pipeline. For QA generation, we suggest fine-tuning
LLM (e.g., LLaMA) to generate several pairs of questions and answers from each
relative caption. We then fine-tune LVLM (e.g., LLaVA) to obtain the VQA model.
By feeding the retrieved image and question to the VQA model, one can find the
images inconsistent with relative caption when the answer by VQA is
inconsistent with the answer in the QA pair. Consequently, the CIR performance
can be boosted by modifying the ranks of inconsistently retrieved images.
Experimental results show that our proposed method outperforms state-of-the-art
CIR methods on the CIRR and Fashion-IQ datasets.
- Abstract(参考訳): Composed Image Retrieval (CIR) では, 異常検索結果の一定の割合は, 相対的なキャプションと一致していないことが実証的に判明した。
この問題に対処するため、この研究は、CIRのパフォーマンスを高めるためのVisual Question Answering(VQA)の視点を提供する。
VQA4CIRは後処理のアプローチであり、既存のCIRメソッドに直接接続することができる。
CIR法によるトップC検索画像から、VQA4CIRは、相対キャプションと矛盾する故障検索結果の悪影響を低減することを目的としている。
検索した画像は相対的なキャプションと一致しないため、「VQAへのQA生成」自己検証パイプラインを利用する。
QA 生成では,LLaMA などの微調整 LLM を用いて,相対的なキャプションから質問や回答を複数生成する。
次に、VQAモデルを得るためにLVLM(例えばLLaVA)を微調整する。
検索した画像と質問をVQAモデルに入力することにより、VQAによる回答とQAペアの回答とが一致していない場合には、相対的なキャプションと矛盾した画像を見つけることができる。
これにより、不整合検索画像のランクを変更することにより、CIR性能を向上させることができる。
実験の結果,提案手法はCIRRおよびFashion-IQデータセット上での最先端CIR法よりも優れていた。
関連論文リスト
- Enhancing Visual Question Answering through Question-Driven Image Captions as Prompts [3.6064695344878093]
視覚的質問応答(VQA)は、視覚と言語の内容を理解し、推論し、推論する必要があるため、AI完全タスクとして知られている。
本稿では,VQAパイプラインの中間プロセスとして画像キャプションを組み込むことによる影響について検討する。
論文 参考訳(メタデータ) (2024-04-12T16:35:23Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - Fine-grained Late-interaction Multi-modal Retrieval for Retrieval
Augmented Visual Question Answering [56.96857992123026]
知識に基づくビジュアル質問回答 (KB-VQA) では、外部知識ベースからの知識を活用して視覚的に座屈した質問に答えるためにVQAシステムが必要である。
本稿では,RA-VQAにおける知識検索を大幅に改善する,微粒な遅延相互作用型マルチモーダル検索(FLMR)を提案する。
論文 参考訳(メタデータ) (2023-09-29T10:54:10Z) - SC-ML: Self-supervised Counterfactual Metric Learning for Debiased
Visual Question Answering [10.749155815447127]
画像特徴に着目した自己教師付き対実測位学習法(SC-ML)を提案する。
SC-MLは、質問関連視覚特徴を適応的に選択し、質問関連視覚特徴の負の影響を低減できる。
論文 参考訳(メタデータ) (2023-04-04T09:05:11Z) - Toward Unsupervised Realistic Visual Question Answering [70.67698100148414]
現実的なVQA(RVQA)の問題について検討し、モデルが答えられない質問(UQ)を拒絶し、答えられる質問(AQ)に答えなければならない。
1)データセットには不整合UQが多すぎること,(2)多数の注釈付きUQがトレーニングに必要とされること,の2つの欠点を最初に指摘した。
我々は、既存のVQAデータセットのAQと約29万の人間の注釈付きUQを組み合わせた新しいテストデータセットRGQAを提案する。
これは、画像と質問をランダムにペアリングして得られる擬似UQと、それを結合する。
論文 参考訳(メタデータ) (2023-03-09T06:58:29Z) - COIN: Counterfactual Image Generation for VQA Interpretation [5.994412766684842]
本稿では,VQAモデルに対する対実画像の生成による解釈可能性のアプローチを提案する。
単一画像上でのVQAモデルの結果の解釈に加えて、得られた結果と議論は、VQAモデルの振る舞いに関する広範な説明を提供する。
論文 参考訳(メタデータ) (2022-01-10T13:51:35Z) - Learning Conditional Knowledge Distillation for Degraded-Reference Image
Quality Assessment [157.1292674649519]
劣化参照IQA(DR-IQA)という実用的な解を提案する。
DR-IQAはIRモデルの入力、劣化したイメージを参照として利用する。
私たちの結果は、フル参照設定のパフォーマンスに近いものもあります。
論文 参考訳(メタデータ) (2021-08-18T02:35:08Z) - Analysis on Image Set Visual Question Answering [0.3359875577705538]
マルチイメージ環境での視覚質問応答の課題に対処する。
従来のVQAタスクは、単一のイメージからターゲットの回答が生成される単一イメージ設定に重点を置いている。
本報告では,タスクのパフォーマンス向上を目的とした4つのアプローチについて検討する。
論文 参考訳(メタデータ) (2021-03-31T20:47:32Z) - Image Quality Assessment for Perceptual Image Restoration: A New
Dataset, Benchmark and Metric [19.855042248822738]
画像品質評価(IQA)は、画像復元アルゴリズム(IR)の急速な発展の鍵となる要素である。
GAN(Generative Adversarial Network)に基づく最近のIRアルゴリズムは、視覚性能に大きな改善をもたらした。
既存のIQA手法は、最近のIRアルゴリズムを客観的に評価できるか?
論文 参考訳(メタデータ) (2020-11-30T17:06:46Z) - Logically Consistent Loss for Visual Question Answering [66.83963844316561]
ニューラルネットワークに基づく視覚質問応答(VQA)の現在の進歩は、同じ分布(すなわち、d)の仮定による一貫性を保証することができない。
マルチタスク学習フレームワークにおける論理的一貫した損失を定式化することにより,この問題に対処するための新しいモデルに依存しない論理制約を提案する。
実験により、提案された損失公式とハイブリッドバッチの導入により、一貫性が向上し、性能が向上することを確認した。
論文 参考訳(メタデータ) (2020-11-19T20:31:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。