論文の概要: PhotoCraft: Agentic Reasoning with Hierarchical Self-Evolving Memory for Deep Image Search
- arxiv url: http://arxiv.org/abs/2606.03099v1
- Date: Tue, 02 Jun 2026 03:38:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.73447
- Title: PhotoCraft: Agentic Reasoning with Hierarchical Self-Evolving Memory for Deep Image Search
- Title(参考訳): PhotoCraft: ディープイメージ検索のための階層的自己進化メモリによるエージェント推論
- Authors: Kailin Lyu, Zhiqiang Yuan, Jianwei He, Qiwei Yan, Xuanbo Su, Nanxing Hu, Yang Liu, Ce Hao, Shengqian Qin, Lianyu Hu, Jinchao Zhang, Jie Zhou,
- Abstract要約: PhotoCraftは、フォト検索エージェントのためのトレーニング不要で階層的なメモリシステムである。
人間の認知にインスパイアされたPhotoCraftは、MLLMに作業、エピソード、セマンティックメモリを装備する。
DISBenchの実験では、PhotoCraftはさまざまなMLLMバックボーン間のコンテキスト認識検索を一貫して改善している。
- 参考スコア(独自算出の注目度): 21.290717543283588
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Image Search requires multi-step reasoning over rich contextual cues, such as time, location, and event relations. However, most existing LLM-based agents are stateless and reactive, lacking persistent memory to maintain long-horizon context or transfer experience across tasks, which often leads to execution drift and experience isolation. To address these limitations, we propose PhotoCraft, a training-free, hierarchical memory system for photo-search agents. Inspired by human cognition, PhotoCraft equips MLLMs with working, episodic, and semantic memory, which are dynamically invoked during reasoning to preserve logical consistency and knowledge transferability throughout multi-step reasoning and answer generation. Extensive experiments on DISBench demonstrate that PhotoCraft consistently improves context-aware retrieval across diverse MLLM backbones, achieving gains of up to 18.5\% and effectively mitigating key bottlenecks in memoryless deep image search, offering a practical path toward reliable and generalizable multimodal search agents.
- Abstract(参考訳): Deep Image Searchは、時間、場所、イベントの関係など、リッチなコンテキスト的手がかりに対する多段階の推論を必要とする。
しかしながら、既存のLLMベースのエージェントのほとんどはステートレスでリアクティブであり、長期にわたるコンテキストやタスク間の転送エクスペリエンスを維持するための永続的なメモリが欠如しているため、実行のドリフトやエクスペリエンスの分離につながることが多い。
これらの制約に対処するために、フォトクラフトは、フォト検索エージェントのためのトレーニング不要で階層的なメモリシステムである。
ヒューマン認知に触発されて、PhotoCraftはMLLMに作業、エピソディクス、セマンティックメモリを装備し、多段階の推論と回答生成を通じて論理的一貫性と知識伝達性を維持するために推論中に動的に呼び出される。
DISBenchに関する大規模な実験では、PhotoCraftはさまざまなMLLMバックボーン間のコンテキスト認識検索を一貫して改善し、最大18.5倍のゲインを達成し、メモリレスのディープイメージサーチにおける重要なボトルネックを効果的に軽減し、信頼性と一般化可能なマルチモーダルサーチエージェントへの実践的な道を提供する。
関連論文リスト
- MemLens: Benchmarking Multimodal Long-Term Memory in Large Vision-Language Models [50.25006399944962]
メモリは、長いマルチモーダル相互作用を扱うために、大きな視覚言語モデルにとって不可欠である。
MEMLENSはマルチモーダルマルチセッション会話におけるメモリのベンチマークである。
我々は27個のLVLMと7個のメモリ増強剤を評価した。
論文 参考訳(メタデータ) (2026-05-14T14:41:17Z) - Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory [89.65731902036669]
Evo-Memoryは、大規模言語モデル(LLM)エージェントで自己進化型メモリを評価するための、ストリーミングベンチマークとフレームワークである。
10以上の代表的なメモリモジュールを評価し、10種類の多ターンゴール指向およびシングルターン推論およびQAデータセットで評価した。
論文 参考訳(メタデータ) (2025-11-25T21:08:07Z) - Open Multimodal Retrieval-Augmented Factual Image Generation [86.34546873830152]
Factual Image Generation(FIG)のためのエージェント型オープンマルチモーダル検索拡張フレームワークORIGを紹介する。
ORIGは、Webから反復的にマルチモーダルなエビデンスを検索してフィルタリングし、洗練された知識をリッチなプロンプトにインクリメンタルに統合し、生成をガイドする。
実験により、ORIGは強いベースラインよりも事実整合性と全体的な画像品質を大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-10-26T04:13:31Z) - From Easy to Hard: The MIR Benchmark for Progressive Interleaved Multi-Image Reasoning [27.117102717184597]
Multi-image Interleaved Reasoningは、複数の画像とその関連するテキストコンテキストを共同で理解し、推論するマルチモーダル大言語モデル(MLLM)の能力を改善することを目的としている。
MIRは、画像領域と対応するテキストを正確に関連付けるために、インターリーブされたテキストコンテキストを伴う複数の画像に対する共同推論を必要とする。
提案手法は, MIRベンチマークおよび他の確立されたベンチマークにおいて, モデル推論性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-09-21T11:19:02Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - MMRA: A Benchmark for Evaluating Multi-Granularity and Multi-Image Relational Association Capabilities in Large Visual Language Models [29.795942154703642]
本稿では,複数画像関係関連課題と,厳密にキュレートされた多粒度マルチイメージアソシエーションのベンチマークを提案する。
実験の結果,MMRAベンチマークでは,現在のマルチイメージLVLMは様々なサブタスクに対して異なる利点と欠点を示すことがわかった。
その結果,LVLMは画像の詳細を知覚する強力な能力を示し,複数の画像ヒンジにまたがる情報を関連付ける能力を高め,言語モデルコンポーネントの推論能力の向上に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-07-24T15:59:01Z) - Generative Cross-Modal Retrieval: Memorizing Images in Multimodal
Language Models for Retrieval and Beyond [99.73306923465424]
画像表現にユニークな識別子文字列を割り当てる生成的クロスモーダル検索フレームワークを提案する。
MLLMのイメージを記憶することで,従来の差別的アプローチとは異なる,クロスモーダル検索の新しいパラダイムを導入する。
論文 参考訳(メタデータ) (2024-02-16T16:31:46Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z) - Empowering Working Memory for Large Language Model Agents [9.83467478231344]
本稿では,認知心理学のワーキングメモリフレームワークを大規模言語モデル(LLM)に適用する可能性について検討する。
エピソード間の記憶を維持するために、集中型ワーキングメモリハブとエピソディックバッファアクセスを取り入れた革新的なモデルが提案されている。
このアーキテクチャは、複雑なタスクと協調シナリオの間のニュアンス付きコンテキスト推論に対して、より継続的なものを提供することを目的としている。
論文 参考訳(メタデータ) (2023-12-22T05:59:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。