論文の概要: DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories
- arxiv url: http://arxiv.org/abs/2602.10809v1
- Date: Wed, 11 Feb 2026 12:51:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.898058
- Title: DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories
- Title(参考訳): DeepImageSearch: 視覚履歴におけるコンテキスト対応画像検索のためのマルチモーダルエージェントのベンチマーク
- Authors: Chenlong Deng, Mengjie Deng, Junjie Wu, Dun Zeng, Teng Wang, Qingsong Xie, Jiadeng Huang, Shengjie Ma, Changwang Zhang, Zhaoxiang Wang, Jun Wang, Yutao Zhu, Zhicheng Dou,
- Abstract要約: 本稿では,画像検索を自律探索タスクとして再構成する新しいエージェントパラダイムであるDeepImageSearchを紹介する。
モデルは、暗黙の文脈的手がかりに基づいてターゲットを特定するために、生の視覚履歴に対して多段階の推論を計画し実行しなければならない。
DisBenchは、相互接続された視覚データ上に構築された、挑戦的なベンチマークである。
- 参考スコア(独自算出の注目度): 52.57197752244638
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing multimodal retrieval systems excel at semantic matching but implicitly assume that query-image relevance can be measured in isolation. This paradigm overlooks the rich dependencies inherent in realistic visual streams, where information is distributed across temporal sequences rather than confined to single snapshots. To bridge this gap, we introduce DeepImageSearch, a novel agentic paradigm that reformulates image retrieval as an autonomous exploration task. Models must plan and perform multi-step reasoning over raw visual histories to locate targets based on implicit contextual cues. We construct DISBench, a challenging benchmark built on interconnected visual data. To address the scalability challenge of creating context-dependent queries, we propose a human-model collaborative pipeline that employs vision-language models to mine latent spatiotemporal associations, effectively offloading intensive context discovery before human verification. Furthermore, we build a robust baseline using a modular agent framework equipped with fine-grained tools and a dual-memory system for long-horizon navigation. Extensive experiments demonstrate that DISBench poses significant challenges to state-of-the-art models, highlighting the necessity of incorporating agentic reasoning into next-generation retrieval systems.
- Abstract(参考訳): 既存のマルチモーダル検索システムはセマンティックマッチングに優れているが、クエリ・イメージの関連性は単独で測定できると暗黙的に仮定する。
このパラダイムは、情報を単一のスナップショットに限定するのではなく、時間的シーケンスに分散する現実的なビジュアルストリームに固有の、リッチな依存関係を見落としている。
このギャップを埋めるために、画像検索を自律的な探索タスクとして再構成する新しいエージェントパラダイムであるDeepImageSearchを紹介する。
モデルは、暗黙の文脈的手がかりに基づいてターゲットを特定するために、生の視覚履歴に対して多段階の推論を計画し実行しなければならない。
DisBenchは、相互接続された視覚データ上に構築された、挑戦的なベンチマークである。
文脈に依存したクエリを作成する際のスケーラビリティの問題に対処するため、人間の検証の前に集中的な文脈発見を効果的にオフロードし、潜時的関連を抽出する視覚言語モデルを用いた人間モデル協調パイプラインを提案する。
さらに、細粒度ツールと長距離ナビゲーションのためのデュアルメモリシステムを備えたモジュールエージェントフレームワークを用いて、ロバストなベースラインを構築する。
DISBenchは最先端のモデルに重大な課題をもたらし、次世代検索システムにエージェント推論を組み込むことの必要性を強調している。
関連論文リスト
- AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts [78.33143446024485]
我々は、横方向思考パズルに基づく環境ロールアウトによるエージェントの評価を行うtextbfAgentLongBenchを紹介した。
このフレームワークは、知識集約的で知識のないシナリオにまたがる厳密な相互作用の軌跡を生成する。
論文 参考訳(メタデータ) (2026-01-28T16:05:44Z) - ImAgent: A Unified Multimodal Agent Framework for Test-Time Scalable Image Generation [49.01601313084479]
ImAgentは、推論、生成、自己評価を統合するトレーニングフリーの統一マルチモーダルエージェントである。
画像生成と編集タスクの実験は、ImAgentがバックボーンよりも一貫して改善していることを示している。
論文 参考訳(メタデータ) (2025-11-14T17:00:29Z) - Towards Context-aware Reasoning-enhanced Generative Searching in E-commerce [61.03081096959132]
そこで本稿では,複雑な状況下でのテキストバウンダリングを改善するための,文脈対応推論強化型生成検索フレームワークを提案する。
提案手法は,強力なベースラインに比べて優れた性能を示し,検索に基づく推薦の有効性を検証した。
論文 参考訳(メタデータ) (2025-10-19T16:46:11Z) - DeepSketcher: Internalizing Visual Manipulation for Multimodal Reasoning [16.880791276029964]
画像を用いたシンキング」とは、視覚言語モデルがテキスト中心のチェーンから画像対話的推論へシフトする現象である。
本稿では、画像テキストインターリーブ付きデータセットと自己完結型モデルの両方からなる包括的スイートであるDeepSketcherを紹介する。
我々は,視覚的な埋め込み空間で直接操作することで,インターリーブされた画像テキスト推論を実行し,視覚的思考を生成するモデルを設計する。
論文 参考訳(メタデータ) (2025-09-30T07:02:01Z) - MLego: Interactive and Scalable Topic Exploration Through Model Reuse [12.133380833451573]
本稿では,リアルタイムトピックモデリング分析を支援する対話型クエリフレームワークであるMLegoを紹介する。
MLegoは、スクラッチからモデルを再訓練する代わりに、物質化されたトピックモデルを効率的にマージして、対話的な速度で近似結果を構築する。
我々はMLegoを視覚分析のプロトタイプシステムに統合し,対話型クエリによる大規模テキストデータセットの探索を可能にする。
論文 参考訳(メタデータ) (2025-08-11T06:06:26Z) - GenIR: Generative Visual Feedback for Mental Image Retrieval [8.753622774569774]
心的イメージ検索(MIR)の課題について検討する。
MIRは、ユーザーがイメージ検索エンジンとのマルチラウンドインタラクションを通じて、精神的に想定されたイメージの検索を洗練する現実的で過度に探索された環境をターゲットにしている。
本稿では,拡散に基づく画像生成を活用し,各ラウンドにおけるAIシステムの理解を明確化するための生成多ラウンド検索パラダイムであるGenIRを提案する。
論文 参考訳(メタデータ) (2025-06-06T16:28:03Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。