論文の概要: POINTS-Seeker: Towards Training a Multimodal Agentic Search Model from Scratch
- arxiv url: http://arxiv.org/abs/2604.14029v1
- Date: Wed, 15 Apr 2026 16:09:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.627098
- Title: POINTS-Seeker: Towards Training a Multimodal Agentic Search Model from Scratch
- Title(参考訳): POINTS-Seeker:スクラッチからのマルチモーダルエージェント検索モデルのトレーニングに向けて
- Authors: Yikun Liu, Yuan Liu, Le Tian, Xiao Zhou, Jiangchao Yao, Yanfeng Wang, Weidi Xie,
- Abstract要約: エージェント・シーディング(Agenic Seeding)は,エージェント行動の抽出に必要な前駆体を織り込むための専用フェーズである。
本稿では、最近の対話を高忠実に保ちながら、歴史的コンテキストをレンダリングを介して視覚空間に折り畳みながら、適応的履歴認識圧縮方式であるV-Foldを提案する。
我々は,最新のマルチモーダルエージェントサーチモデルであるPOINTS-Seeker-8Bを開発した。
- 参考スコア(独自算出の注目度): 84.73366911912512
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Multimodal Models (LMMs) demonstrate impressive visual perception, they remain epistemically constrained by their static parametric knowledge. To transcend these boundaries, multimodal search models have been adopted to actively interact with the external environment for evidence retrieval. Diverging from prevailing paradigms that merely retrofit general LMMs with search tools as modular extensions, we explore the potential of building a multimodal agentic search model from scratch. Specifically, we make the following contributions: (i) we introduce Agentic Seeding, a dedicated phase designed to weave the foundational precursors necessary for eliciting agentic behaviors; (ii) we uncover a performance bottleneck in long-horizon interactions, where the increasing volume of interaction history overwhelms the model's ability to locate ground-truth evidence. To mitigate this, we propose V-Fold, an adaptive history-aware compression scheme that preserves recent dialogue turns in high fidelity while folding historical context into the visual space via rendering; and (iii) we develop POINTS-Seeker-8B, a state-of-the-art multimodal agentic search model that consistently outperforms existing models across six diverse benchmarks, effectively resolving the challenges of long-horizon, knowledge-intensive visual reasoning.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は印象的な視覚的知覚を示すが、静的なパラメトリックな知識によって認識的に制約される。
これらの境界を超越するために、証拠検索のために外部環境と活発に相互作用するマルチモーダル検索モデルが採用されている。
一般的なLMMをモジュラー拡張として検索ツールに適合させるだけの一般的なパラダイムから、スクラッチからマルチモーダルエージェント検索モデルを構築する可能性を探る。
具体的には、以下の貢献をします。
一 エージェントの行動を引き出すのに必要な基礎的前駆体を織り込むための専用フェーズであるエージェントシーディングを導入する。
(II) 相互作用履歴の増大がモデルの性能を圧倒する長軸相互作用における性能ボトルネックを明らかにする。
これを緩和するために、最近の対話を高忠実に保ちながら、歴史的コンテキストをレンダリングを介して視覚空間に折り畳みながら、適応的履歴認識圧縮スキームであるV-Foldを提案する。
3)PINTS-Seeker-8Bは、最先端のマルチモーダルエージェントサーチモデルであり、6つの異なるベンチマークで既存のモデルを一貫して上回り、長期的、知識集約的な視覚的推論の課題を効果的に解決する。
関連論文リスト
- Insight-V++: Towards Advanced Long-Chain Visual Reasoning with Multimodal Large Language Models [65.4947731385794]
基礎画像中心モデルであるInsight-Vから進化した統合多エージェント視覚推論フレームワークを提案する。
空間的時間的推論を強化し、評価ロバスト性を向上させる2つの新しいアルゴリズムST-GRPOとJ-GRPOを導入する。
LLaVA-NeXTやQwen2.5-VLといったベースモデルの実験は、挑戦的な画像とビデオの推論ベンチマーク間で大きなパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2026-03-18T15:28:07Z) - DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories [52.57197752244638]
本稿では,画像検索を自律探索タスクとして再構成する新しいエージェントパラダイムであるDeepImageSearchを紹介する。
モデルは、暗黙の文脈的手がかりに基づいてターゲットを特定するために、生の視覚履歴に対して多段階の推論を計画し実行しなければならない。
DisBenchは、相互接続された視覚データ上に構築された、挑戦的なベンチマークである。
論文 参考訳(メタデータ) (2026-02-11T12:51:10Z) - NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。
NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。
さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文 参考訳(メタデータ) (2025-10-15T16:25:18Z) - Agent-ScanKit: Unraveling Memory and Reasoning of Multimodal Agents via Sensitivity Perturbations [34.15274225730601]
制御摂動下でのマルチモーダルエージェントの記憶と推論能力を解明するための textbfAgent-ScanKit を提案する。
その結果,機械的記憶が体系的推論より優れていることが示唆された。
本研究は,実環境におけるマルチモーダルエージェントのロバスト推論モデルの必要性を明らかにするものである。
論文 参考訳(メタデータ) (2025-10-01T04:29:39Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。