Fugu-MT 論文翻訳(概要): Enhancing Multi-Image Question Answering via Submodular Subset Selection

論文の概要: Enhancing Multi-Image Question Answering via Submodular Subset Selection

arxiv url: http://arxiv.org/abs/2505.10533v1
Date: Thu, 15 May 2025 17:41:52 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-16 22:29:06.445057
Title: Enhancing Multi-Image Question Answering via Submodular Subset Selection
Title（参考訳）: サブモジュールサブセット選択による複数画像質問応答の強化
Authors: Aaryan Sharma, Shivansh Gupta, Samar Agarwal, Vishak Prasad C., Ganesh Ramakrishnan,
Abstract要約: 大規模マルチモーダルモデル (LMM) は、単一の画像を含む視覚言語タスクにおいて高い性能を達成しているが、複数の画像の集合を提示する際には困難である。サブモジュールサブセット選択手法を用いて,MIRAGEモデルで導入された検索フレームワークの拡張を提案する。
参考スコア（独自算出の注目度）: 16.66633426354087
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large multimodal models (LMMs) have achieved high performance in vision-language tasks involving single image but they struggle when presented with a collection of multiple images (Multiple Image Question Answering scenario). These tasks, which involve reasoning over large number of images, present issues in scalability (with increasing number of images) and retrieval performance. In this work, we propose an enhancement for retriever framework introduced in MIRAGE model using submodular subset selection techniques. Our method leverages query-aware submodular functions, such as GraphCut, to pre-select a subset of semantically relevant images before main retrieval component. We demonstrate that using anchor-based queries and augmenting the data improves submodular-retriever pipeline effectiveness, particularly in large haystack sizes.
Abstract（参考訳）: 大規模マルチモーダルモデル(LMM)は、単一の画像を含む視覚言語タスクにおいて高い性能を達成しているが、複数の画像のコレクションを提示する際には困難である(多重画像質問回答シナリオ)。大量の画像の推論を含むこれらのタスクは、スケーラビリティ(画像数の増加を伴う)と検索性能の問題を提起する。本研究では,サブモジュールサブセット選択手法を用いて,MIRAGEモデルで導入された検索フレームワークの拡張を提案する。提案手法は,GraphCutなどのクエリ対応サブモジュール関数を利用して,主検索コンポーネントの前に意味的関連画像のサブセットを事前選択する。アンカーベースのクエリを使用してデータを拡張することにより,特に大規模な干ばつサイズにおいて,サブモジュール/リレーバパイプラインの有効性が向上することを示す。

関連論文リスト

DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories [52.57197752244638]
本稿では,画像検索を自律探索タスクとして再構成する新しいエージェントパラダイムであるDeepImageSearchを紹介する。モデルは、暗黙の文脈的手がかりに基づいてターゲットを特定するために、生の視覚履歴に対して多段階の推論を計画し実行しなければならない。 DisBenchは、相互接続された視覚データ上に構築された、挑戦的なベンチマークである。
論文参考訳（メタデータ） (2026-02-11T12:51:10Z)
Cross-modal RAG: Sub-dimensional Retrieval-Augmented Text-to-Image Generation [12.631059980161435]
我々は,クエリとイメージの両方をサブ次元のコンポーネントに分解する新しいフレームワークであるCross-modal RAGを提案する。本稿では,サブ次元スパースレトリバーと高密度レトリバーを組み合わせたハイブリッド検索手法を提案する。 MS-COCO、Flickr30K、WikiArt、CUB、ImageNet-LTの実験では、クロスモーダルRAGは検索と生成の両方において既存のベースラインを大幅に上回っている。
論文参考訳（メタデータ） (2025-05-28T04:09:49Z)
QuARI: Query Adaptive Retrieval Improvement [10.896025071832055]
本稿では, 関心領域に関連する部分空間を強調することにより, 実例検索のために訓練したVLM機能の線形変換により, 性能の向上が期待できることを示す。この変換は線形であるため、数百万の画像埋め込みに最小の計算コストで適用することができる。以上の結果から,この手法は問合せ時に桁違いに多くの命令を必要とするものなど,最先端の代替手段を一貫して上回っていることが示唆された。
論文参考訳（メタデータ） (2025-05-27T18:21:48Z)
Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
Visual Haystacks: A Vision-Centric Needle-In-A-Haystack Benchmark [63.296342841358815]
大規模マルチモーダルモデル(LMM)は、単一画像に対する視覚的質問応答において大きな進歩を遂げている。多数の視覚トークンを処理する能力は、複数画像の質問応答に対する効果的な検索と推論を保証するものではない。オープンソースで軽量なビジュアルRAGフレームワークであるMIRAGEを導入し、単一の40G A100 GPU上で最大10Kイメージを処理する。
論文参考訳（メタデータ） (2024-07-18T17:59:30Z)
Mixed-Query Transformer: A Unified Image Segmentation Architecture [57.32212654642384]
既存の統合イメージセグメンテーションモデルは、複数のタスクにまたがる統一アーキテクチャを採用するが、各データセットに合わせた個別の重みを使用するか、複数のデータセットに1セットの重みを適用するが、1つのタスクに限定される。マルチタスクとマルチデータセット画像セグメンテーションを一組の重みで統合したアーキテクチャであるMixed-Query Transformer (MQ-Former)を紹介した。
論文参考訳（メタデータ） (2024-04-06T01:54:17Z)
End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文参考訳（メタデータ） (2023-06-01T08:04:12Z)
LMR: A Large-Scale Multi-Reference Dataset for Reference-based Super-Resolution [86.81241084950524]
参照ベース超解像(RefSR)は、単一の画像超解像(SISR)と比較して、類似した高品質な画像を参照することで優れた結果が得られると広く合意されている。以前のRefSR手法はすべて単一参照イメージトレーニングに重点を置いているが、複数の参照イメージはテストや実用的なアプリケーションでしばしば利用できる。我々はLMRと呼ばれる大規模なマルチ参照超解像データセットを構築し、300x300のトレーニング画像の112,142グループを含み、これは既存の最大のRefSRデータセットの10倍である。
論文参考訳（メタデータ） (2023-03-09T01:07:06Z)
Self-supervised Multi-view Disentanglement for Expansion of Visual Collections [6.944742823561]
類似した画像に対する問い合わせが画像の集合から導出される設定について考察する。ビジュアルサーチでは、類似度の測定は複数の軸に沿って行うか、スタイルや色などのビューで行うことができる。本研究の目的は,複数のビューからの表現に対して計算された類似性を効果的に組み合わせた検索アルゴリズムを設計することである。
論文参考訳（メタデータ） (2023-02-04T22:09:17Z)
Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。新たなマルチモーダル検索フレームワーク(MoRe)を提案する。 MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文参考訳（メタデータ） (2022-12-03T13:11:32Z)
Probabilistic Compositional Embeddings for Multimodal Image Retrieval [48.450232527041436]
画像検索において複数のマルチモーダルクエリを構成する上で,より困難なシナリオについて検討する。任意の数のクエリイメージと(あるいは)テキストが与えられた場合、我々のゴールは、複数のマルチモーダルクエリで指定されたセマンティックな概念を含むターゲットイメージを検索することである。様々なクエリのセマンティクスを柔軟にエンコードできる情報埋め込みを学習するための,新しい多モード確率的合成法(MPC)を提案する。
論文参考訳（メタデータ） (2022-04-12T14:45:37Z)
Multi-Image Summarization: Textual Summary from a Set of Cohesive Images [17.688344968462275]
本稿では,マルチイメージ要約の新しい課題を提案する。入力画像のコヒーレントな集合から簡潔で記述的なテキスト要約を生成することを目的としている。密度の高い平均画像特徴集約ネットワークにより、モデルは属性のコヒーレントなサブセットに集中することができる。
論文参考訳（メタデータ） (2020-06-15T18:45:35Z)
Using Image Captions and Multitask Learning for Recommending Query Reformulations [11.99358906295761]
商用画像検索エンジンのクエリレコメンデーションエクスペリエンスを強化することを目的としている。提案手法は,関連文献からの最先端の実践を取り入れたものである。
論文参考訳（メタデータ） (2020-03-02T08:22:46Z)
CBIR using features derived by Deep Learning [0.0]
CBIR(Content Based Image Retrieval)システムでは、クエリ画像が与えられた大きなデータベースから同様の画像を検索する。本稿では,大規模な画像分類問題に対して学習したディープラーニング畳み込みネットワークから,事前学習したネットワークモデルから派生した特徴を用いることを提案する。
論文参考訳（メタデータ） (2020-02-13T21:26:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。