論文の概要: Enhancing Multi-Image Question Answering via Submodular Subset Selection
- arxiv url: http://arxiv.org/abs/2505.10533v1
- Date: Thu, 15 May 2025 17:41:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.445057
- Title: Enhancing Multi-Image Question Answering via Submodular Subset Selection
- Title(参考訳): サブモジュールサブセット選択による複数画像質問応答の強化
- Authors: Aaryan Sharma, Shivansh Gupta, Samar Agarwal, Vishak Prasad C., Ganesh Ramakrishnan,
- Abstract要約: 大規模マルチモーダルモデル (LMM) は、単一の画像を含む視覚言語タスクにおいて高い性能を達成しているが、複数の画像の集合を提示する際には困難である。
サブモジュールサブセット選択手法を用いて,MIRAGEモデルで導入された検索フレームワークの拡張を提案する。
- 参考スコア(独自算出の注目度): 16.66633426354087
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large multimodal models (LMMs) have achieved high performance in vision-language tasks involving single image but they struggle when presented with a collection of multiple images (Multiple Image Question Answering scenario). These tasks, which involve reasoning over large number of images, present issues in scalability (with increasing number of images) and retrieval performance. In this work, we propose an enhancement for retriever framework introduced in MIRAGE model using submodular subset selection techniques. Our method leverages query-aware submodular functions, such as GraphCut, to pre-select a subset of semantically relevant images before main retrieval component. We demonstrate that using anchor-based queries and augmenting the data improves submodular-retriever pipeline effectiveness, particularly in large haystack sizes.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、単一の画像を含む視覚言語タスクにおいて高い性能を達成しているが、複数の画像のコレクションを提示する際には困難である(多重画像質問回答シナリオ)。
大量の画像の推論を含むこれらのタスクは、スケーラビリティ(画像数の増加を伴う)と検索性能の問題を提起する。
本研究では,サブモジュールサブセット選択手法を用いて,MIRAGEモデルで導入された検索フレームワークの拡張を提案する。
提案手法は,GraphCutなどのクエリ対応サブモジュール関数を利用して,主検索コンポーネントの前に意味的関連画像のサブセットを事前選択する。
アンカーベースのクエリを使用してデータを拡張することにより,特に大規模な干ばつサイズにおいて,サブモジュール/リレーバパイプラインの有効性が向上することを示す。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Visual Haystacks: A Vision-Centric Needle-In-A-Haystack Benchmark [63.296342841358815]
大規模マルチモーダルモデル(LMM)は、単一画像に対する視覚的質問応答において大きな進歩を遂げている。
多数の視覚トークンを処理する能力は、複数画像の質問応答に対する効果的な検索と推論を保証するものではない。
オープンソースで軽量なビジュアルRAGフレームワークであるMIRAGEを導入し、単一の40G A100 GPU上で最大10Kイメージを処理する。
論文 参考訳(メタデータ) (2024-07-18T17:59:30Z) - Mixed-Query Transformer: A Unified Image Segmentation Architecture [57.32212654642384]
既存の統合イメージセグメンテーションモデルは、複数のタスクにまたがる統一アーキテクチャを採用するが、各データセットに合わせた個別の重みを使用するか、複数のデータセットに1セットの重みを適用するが、1つのタスクに限定される。
マルチタスクとマルチデータセット画像セグメンテーションを一組の重みで統合したアーキテクチャであるMixed-Query Transformer (MQ-Former)を紹介した。
論文 参考訳(メタデータ) (2024-04-06T01:54:17Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - LMR: A Large-Scale Multi-Reference Dataset for Reference-based
Super-Resolution [86.81241084950524]
参照ベース超解像(RefSR)は、単一の画像超解像(SISR)と比較して、類似した高品質な画像を参照することで優れた結果が得られると広く合意されている。
以前のRefSR手法はすべて単一参照イメージトレーニングに重点を置いているが、複数の参照イメージはテストや実用的なアプリケーションでしばしば利用できる。
我々はLMRと呼ばれる大規模なマルチ参照超解像データセットを構築し、300x300のトレーニング画像の112,142グループを含み、これは既存の最大のRefSRデータセットの10倍である。
論文 参考訳(メタデータ) (2023-03-09T01:07:06Z) - Self-supervised Multi-view Disentanglement for Expansion of Visual
Collections [6.944742823561]
類似した画像に対する問い合わせが画像の集合から導出される設定について考察する。
ビジュアルサーチでは、類似度の測定は複数の軸に沿って行うか、スタイルや色などのビューで行うことができる。
本研究の目的は,複数のビューからの表現に対して計算された類似性を効果的に組み合わせた検索アルゴリズムを設計することである。
論文 参考訳(メタデータ) (2023-02-04T22:09:17Z) - Probabilistic Compositional Embeddings for Multimodal Image Retrieval [48.450232527041436]
画像検索において複数のマルチモーダルクエリを構成する上で,より困難なシナリオについて検討する。
任意の数のクエリイメージと(あるいは)テキストが与えられた場合、我々のゴールは、複数のマルチモーダルクエリで指定されたセマンティックな概念を含むターゲットイメージを検索することである。
様々なクエリのセマンティクスを柔軟にエンコードできる情報埋め込みを学習するための,新しい多モード確率的合成法(MPC)を提案する。
論文 参考訳(メタデータ) (2022-04-12T14:45:37Z) - Multi-Image Summarization: Textual Summary from a Set of Cohesive Images [17.688344968462275]
本稿では,マルチイメージ要約の新しい課題を提案する。
入力画像のコヒーレントな集合から簡潔で記述的なテキスト要約を生成することを目的としている。
密度の高い平均画像特徴集約ネットワークにより、モデルは属性のコヒーレントなサブセットに集中することができる。
論文 参考訳(メタデータ) (2020-06-15T18:45:35Z) - Using Image Captions and Multitask Learning for Recommending Query
Reformulations [11.99358906295761]
商用画像検索エンジンのクエリレコメンデーションエクスペリエンスを強化することを目的としている。
提案手法は,関連文献からの最先端の実践を取り入れたものである。
論文 参考訳(メタデータ) (2020-03-02T08:22:46Z) - CBIR using features derived by Deep Learning [0.0]
CBIR(Content Based Image Retrieval)システムでは、クエリ画像が与えられた大きなデータベースから同様の画像を検索する。
本稿では,大規模な画像分類問題に対して学習したディープラーニング畳み込みネットワークから,事前学習したネットワークモデルから派生した特徴を用いることを提案する。
論文 参考訳(メタデータ) (2020-02-13T21:26:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。