Fugu-MT 論文翻訳(概要): ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning

論文の概要: ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning

arxiv url: http://arxiv.org/abs/2503.10166v1
Date: Thu, 13 Mar 2025 08:43:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-14 21:36:22.58901
Title: ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning
Title（参考訳）: ImageScope: 大規模マルチモーダルモデルによる言語ガイド画像検索
Authors: Pengfei Luo, Jingbo Zhou, Tong Xu, Yuan Xia, Linli Xu, Enhong Chen,
Abstract要約: ImageScopeは、トレーニング不要で3段階のフレームワークで、言語誘導の画像検索タスクを統合する。最初の段階では,様々な意味的粒度のレベルにまたがって探索意図を合成することにより,フレームワークの堅牢性を向上させる。第2段階と第3段階において、述語命題を局所的に検証し、一括評価を行うことにより、検索結果を反映する。
参考スコア（独自算出の注目度）: 62.61187785810336
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: With the proliferation of images in online content, language-guided image retrieval (LGIR) has emerged as a research hotspot over the past decade, encompassing a variety of subtasks with diverse input forms. While the development of large multimodal models (LMMs) has significantly facilitated these tasks, existing approaches often address them in isolation, requiring the construction of separate systems for each task. This not only increases system complexity and maintenance costs, but also exacerbates challenges stemming from language ambiguity and complex image content, making it difficult for retrieval systems to provide accurate and reliable results. To this end, we propose ImageScope, a training-free, three-stage framework that leverages collective reasoning to unify LGIR tasks. The key insight behind the unification lies in the compositional nature of language, which transforms diverse LGIR tasks into a generalized text-to-image retrieval process, along with the reasoning of LMMs serving as a universal verification to refine the results. To be specific, in the first stage, we improve the robustness of the framework by synthesizing search intents across varying levels of semantic granularity using chain-of-thought (CoT) reasoning. In the second and third stages, we then reflect on retrieval results by verifying predicate propositions locally, and performing pairwise evaluations globally. Experiments conducted on six LGIR datasets demonstrate that ImageScope outperforms competitive baselines. Comprehensive evaluations and ablation studies further confirm the effectiveness of our design.
Abstract（参考訳）: オンラインコンテンツにおける画像の拡散に伴い、言語誘導画像検索(LGIR)は、様々な入力形式を持つ様々なサブタスクを含む研究ホットスポットとして過去10年間に出現してきた。大規模マルチモーダルモデル(LMM)の開発はこれらのタスクを著しく促進してきたが、既存のアプローチはしばしば個別に処理し、それぞれのタスクに個別のシステムを構築する必要がある。これは、システムの複雑さとメンテナンスコストを増大させるだけでなく、言語あいまいさや複雑な画像コンテンツから生じる課題を悪化させ、検索システムが正確で信頼性の高い結果を提供するのを難しくする。この目的のために,LGIRタスクを統一するために,集合的推論を利用するトレーニングフリーの3段階フレームワークであるImageScopeを提案する。この統合の背後にある重要な洞察は、多種多様なLGIRタスクを一般化されたテキスト・ツー・イメージ検索プロセスに変換する言語の構成的性質と、その結果を洗練するための普遍的な検証として機能するLMMの推論である。具体的には、第1段階では、チェーン・オブ・ソート(CoT)推論を用いて、様々なレベルの意味的粒度の探索意図を合成することにより、フレームワークの堅牢性を向上させる。第2段と第3段では、述語命題を局所的に検証し、グローバルにペアワイズ評価を行うことで、検索結果を反映する。 6つのLGIRデータセットで実施された実験は、ImageScopeが競合ベースラインを上回っていることを示している。包括的評価とアブレーション研究により, 設計の有効性がさらに確認された。

関連論文リスト

Analyze-Prompt-Reason: A Collaborative Agent-Based Framework for Multi-Image Vision-Language Reasoning [3.588567067449924]
マルチイメージ推論のための協調エージェントベースフレームワークを提案する。提案手法は,多様なデータセットやタスク形式にまたがるマルチモーダル推論のインターリーブ化という課題に対処する。我々は2025年のMIRAGE Challengeから18種類の多様なデータセットについて評価を行った。
論文参考訳（メタデータ） (2025-08-01T06:39:15Z)
CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文参考訳（メタデータ） (2025-03-25T17:59:50Z)
CoTMR: Chain-of-Thought Multi-Scale Reasoning for Training-Free Zero-Shot Composed Image Retrieval [13.59418209417664]
Zero-Shot Composed Image Retrieval (ZS-CIR) は、サンプルをトレーニングすることなく、合成クエリから情報を統合してターゲット画像を取得することを目的としている。我々は,ZS-CIRのためのトレーニングフリーフレームワークであるCoTMRを提案し,新しいChain-of-Thought(CoT)とマルチスケール推論を提案する。
論文参考訳（メタデータ） (2025-02-28T08:12:23Z)
Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
Multimodal Hypothetical Summary for Retrieval-based Multi-image Question Answering [14.63910474388089]
QAの学習目標が探索段階の最適化に失敗するため, 「検索・回答」パイプラインはカスケードエラーに悩まされることが多い。本稿では,検索した情報をQAに効果的に導入し,参照するための新しい手法を提案する。提案手法は,RETVQAの最先端手法よりも3.7%,CLIPよりも14.5%,絶対的な改善を実現している。
論文参考訳（メタデータ） (2024-12-19T14:17:09Z)
Beyond Text: Optimizing RAG with Multimodal Inputs for Industrial Applications [3.7636375810345744]
大きな言語モデル(LLM)は、質問に答える際、印象的な能力を示してきたが、それらはドメイン固有の知識に欠け、幻覚を起こす傾向がある。 Retrieval Augmented Generation(RAG)は、これらの課題に対処するためのアプローチのひとつであり、マルチモーダルモデルは、テキストとイメージの両方を処理するための有望なAIアシスタントとして現れている。本稿では,産業領域のRAGシステムにマルチモーダルモデルをどのように組み込むかを決定するための一連の実験について述べる。
論文参考訳（メタデータ） (2024-10-29T11:03:31Z)
Visual Haystacks: A Vision-Centric Needle-In-A-Haystack Benchmark [63.296342841358815]
大規模マルチモーダルモデル(LMM)は、単一画像に対する視覚的質問応答において大きな進歩を遂げている。多数の視覚トークンを処理する能力は、複数画像の質問応答に対する効果的な検索と推論を保証するものではない。オープンソースで軽量なビジュアルRAGフレームワークであるMIRAGEを導入し、単一の40G A100 GPU上で最大10Kイメージを処理する。
論文参考訳（メタデータ） (2024-07-18T17:59:30Z)
TIGeR: Unifying Text-to-Image Generation and Retrieval with Large Multimodal Models [96.72318842152148]
1つのLMM(Large Multimodal Model)を用いたテキスト・画像生成と検索のための統合フレームワークを提案する。具体的には,LMMの本質的な識別能力について検討し,テキスト・画像検索のための効率的な生成的検索手法を提案する。次に、テキストプロンプトに対する応答として、生成画像と検索画像の間で最適なマッチング画像を選択するための自律決定機構を提案する。
論文参考訳（メタデータ） (2024-06-09T15:00:28Z)
Enhancing Interactive Image Retrieval With Query Rewriting Using Large Language Models and Vision Language Models [17.171715290673678]
本稿では,ユーザの関連性フィードバックに基づいてクエリを精査できる対話型画像検索システムを提案する。本システムは,視覚言語モデル(VLM)に基づく画像キャプタを組み込んで,テキストベースのクエリの質を高める。本システムを評価するために,MSR-VTTビデオ検索データセットを画像検索タスクに適用することにより,新たなデータセットをキュレートする。
論文参考訳（メタデータ） (2024-04-29T14:46:35Z)
Vision-by-Language for Training-Free Compositional Image Retrieval [78.60509831598745]
合成画像検索(CIR)は、データベース内の関連する対象画像を検索することを目的としている。大規模視覚言語モデル(VLM)を用いた最近の研究動向我々は、CIReVL(Vision-by-Language)による学習自由なCIRへの取り組みを提案する。
論文参考訳（メタデータ） (2023-10-13T17:59:38Z)
Tasks Integrated Networks: Joint Detection and Retrieval for Image Search [99.49021025124405]
多くの現実世界の探索シナリオ(例えばビデオ監視)では、オブジェクトは正確に検出または注釈付けされることはめったにない。まず、エンド・ツー・エンド統合ネット(I-Net)を紹介します。さらに,2つの新しいコントリビューションを行うDC-I-Netという改良されたI-Netを提案する。
論文参考訳（メタデータ） (2020-09-03T03:57:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。