論文の概要: ContextNav: Towards Agentic Multimodal In-Context Learning
- arxiv url: http://arxiv.org/abs/2510.04560v1
- Date: Mon, 06 Oct 2025 07:49:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.737103
- Title: ContextNav: Towards Agentic Multimodal In-Context Learning
- Title(参考訳): ContextNav: エージェント型マルチモーダルインコンテキスト学習を目指して
- Authors: Honghao Fu, Yuan Ouyang, Kai-Wei Chang, Yiwei Wang, Zi Huang, Yujun Cai,
- Abstract要約: ContextNavは、自動検索のスケーラビリティと人間のようなキュレーションの品質と適応性を統合するエージェントフレームワークである。
リソースを意識したマルチモーダル埋め込みパイプラインを構築し、検索可能なベクトルデータベースを維持し、エージェント検索と構造アライメントを適用して、ノイズ耐性のあるコンテキストを構築する。
実験の結果、ContextNavはさまざまなデータセットで最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 85.05420047017513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances demonstrate that multimodal large language models (MLLMs) exhibit strong multimodal in-context learning (ICL) capabilities, enabling them to adapt to novel vision-language tasks from a few contextual examples. However, existing ICL approaches face challenges in reconciling scalability with robustness across diverse tasks and noisy contextual examples: manually selecting examples produces clean contexts but is labor-intensive and task-specific, while similarity-based retrieval improves scalability but could introduce irrelevant or structurally inconsistent samples that degrade ICL performance. To address these limitations, we propose ContextNav, the first agentic framework that integrates the scalability of automated retrieval with the quality and adaptiveness of human-like curation, enabling noise-robust and dynamically optimized contextualization for multimodal ICL. ContextNav unifies context management and noise-robust contextualization within a closed-loop workflow driven by graph-based orchestration. Specifically, it builds a resource-aware multimodal embedding pipeline, maintains a retrievable vector database, and applies agentic retrieval and structural alignment to construct noise-resilient contexts. An Operational Grammar Graph (OGG) further supports adaptive workflow planning and optimization, enabling the agent to refine its operational strategies based on downstream ICL feedback. Experimental results demonstrate that ContextNav achieves state-of-the-art performance across various datasets, underscoring the promise of agentic workflows for advancing scalable and robust contextualization in multimodal ICL.
- Abstract(参考訳): 近年,マルチモーダル大規模言語モデル (MLLM) は強力なマルチモーダル・イン・コンテクスト・ラーニング (ICL) 能力を示し,いくつかの文脈から新しい視覚言語タスクに適応できることが示されている。
例を手動で選択するとクリーンなコンテキストが生成されるが、労働集約的でタスク固有のものであるのに対して、類似性に基づく検索はスケーラビリティを改善するが、ICLのパフォーマンスを低下させる無関係または構造的に一貫性のないサンプルを導入することができる。
これらの制約に対処するため、我々は、自動検索のスケーラビリティと人間のようなキュレーションの質と適応性を統合する最初のエージェントフレームワークContextNavを提案し、マルチモーダルICLのためのノイズロスと動的に最適化されたコンテキスト化を実現した。
ContextNavは、グラフベースのオーケストレーションによって駆動されるクローズドループワークフロー内で、コンテキスト管理とノイズロバストなコンテキスト化を統合する。
具体的には、リソースを意識したマルチモーダル埋め込みパイプラインを構築し、検索可能なベクトルデータベースを維持し、エージェント検索と構造アライメントを適用して、ノイズ耐性のあるコンテキストを構築する。
オペレーショナルグラマーグラフ(OGG)はさらに適応的なワークフロー計画と最適化をサポートしており、エージェントは下流のICLフィードバックに基づいて運用戦略を洗練できる。
実験結果から、ContextNavはさまざまなデータセットをまたいだ最先端のパフォーマンスを実現し、マルチモーダルICLにおけるスケーラブルで堅牢なコンテキスト化を実現するためのエージェントワークフローの可能性を強調した。
関連論文リスト
- DeepMEL: A Multi-Agent Collaboration Framework for Multimodal Entity Linking [18.8210909297317]
Multimodal Entity Linkingは、テキストとビジュアルの言及と、マルチモーダルな知識グラフのエンティティを関連付けることを目的としている。
現状の手法では、不完全文脈情報、粗いクロスモーダル融合、共同言語モデル(LLM)と大規模視覚モデル(LVM)の難しさといった課題に直面している。
マルチエージェント協調推論に基づく新しいフレームワークであるDeepMELを提案する。
論文 参考訳(メタデータ) (2025-08-21T11:24:26Z) - True Multimodal In-Context Learning Needs Attention to the Visual Context [69.63677595066012]
MLLM(Multimodal Large Language Models)は、新しいタスクに適応したMICL(Multimodal In-Context Learning)を実現する。
現在のMLLMは、視覚的手がかりを無視し、テキストパターンを過度に無視する傾向にあり、真のマルチモーダル適応よりも単なるテキスト模倣に繋がる。
視覚的コンテキストへのモデルへの参加を促す,効率的な微調整戦略であるDynamic Attention Reallocation (DARA)を紹介した。
論文 参考訳(メタデータ) (2025-07-21T17:08:18Z) - Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - CUE-M: Contextual Understanding and Enhanced Search with Multimodal Large Language Model [9.224965304457708]
本稿では,新しいマルチモーダル検索フレームワークであるMLLM (CUE-M) について述べる。
画像コンテキストの強化、インテントの洗練、コンテキストクエリ生成、外部APIの統合、関連ベースのフィルタリングなどが含まれている。
知識に基づくVQAと安全性に関する実単語データセットと公開ベンチマークの実験は、CUE-Mがベースラインを上回り、新しい最先端の結果を確立することを示した。
論文 参考訳(メタデータ) (2024-11-19T07:16:48Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。