論文の概要: ContextNav: Towards Agentic Multimodal In-Context Learning
- arxiv url: http://arxiv.org/abs/2510.04560v1
- Date: Mon, 06 Oct 2025 07:49:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.737103
- Title: ContextNav: Towards Agentic Multimodal In-Context Learning
- Title(参考訳): ContextNav: エージェント型マルチモーダルインコンテキスト学習を目指して
- Authors: Honghao Fu, Yuan Ouyang, Kai-Wei Chang, Yiwei Wang, Zi Huang, Yujun Cai,
- Abstract要約: ContextNavは、自動検索のスケーラビリティと人間のようなキュレーションの品質と適応性を統合するエージェントフレームワークである。
リソースを意識したマルチモーダル埋め込みパイプラインを構築し、検索可能なベクトルデータベースを維持し、エージェント検索と構造アライメントを適用して、ノイズ耐性のあるコンテキストを構築する。
実験の結果、ContextNavはさまざまなデータセットで最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 85.05420047017513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances demonstrate that multimodal large language models (MLLMs) exhibit strong multimodal in-context learning (ICL) capabilities, enabling them to adapt to novel vision-language tasks from a few contextual examples. However, existing ICL approaches face challenges in reconciling scalability with robustness across diverse tasks and noisy contextual examples: manually selecting examples produces clean contexts but is labor-intensive and task-specific, while similarity-based retrieval improves scalability but could introduce irrelevant or structurally inconsistent samples that degrade ICL performance. To address these limitations, we propose ContextNav, the first agentic framework that integrates the scalability of automated retrieval with the quality and adaptiveness of human-like curation, enabling noise-robust and dynamically optimized contextualization for multimodal ICL. ContextNav unifies context management and noise-robust contextualization within a closed-loop workflow driven by graph-based orchestration. Specifically, it builds a resource-aware multimodal embedding pipeline, maintains a retrievable vector database, and applies agentic retrieval and structural alignment to construct noise-resilient contexts. An Operational Grammar Graph (OGG) further supports adaptive workflow planning and optimization, enabling the agent to refine its operational strategies based on downstream ICL feedback. Experimental results demonstrate that ContextNav achieves state-of-the-art performance across various datasets, underscoring the promise of agentic workflows for advancing scalable and robust contextualization in multimodal ICL.
- Abstract(参考訳): 近年,マルチモーダル大規模言語モデル (MLLM) は強力なマルチモーダル・イン・コンテクスト・ラーニング (ICL) 能力を示し,いくつかの文脈から新しい視覚言語タスクに適応できることが示されている。
例を手動で選択するとクリーンなコンテキストが生成されるが、労働集約的でタスク固有のものであるのに対して、類似性に基づく検索はスケーラビリティを改善するが、ICLのパフォーマンスを低下させる無関係または構造的に一貫性のないサンプルを導入することができる。
これらの制約に対処するため、我々は、自動検索のスケーラビリティと人間のようなキュレーションの質と適応性を統合する最初のエージェントフレームワークContextNavを提案し、マルチモーダルICLのためのノイズロスと動的に最適化されたコンテキスト化を実現した。
ContextNavは、グラフベースのオーケストレーションによって駆動されるクローズドループワークフロー内で、コンテキスト管理とノイズロバストなコンテキスト化を統合する。
具体的には、リソースを意識したマルチモーダル埋め込みパイプラインを構築し、検索可能なベクトルデータベースを維持し、エージェント検索と構造アライメントを適用して、ノイズ耐性のあるコンテキストを構築する。
オペレーショナルグラマーグラフ(OGG)はさらに適応的なワークフロー計画と最適化をサポートしており、エージェントは下流のICLフィードバックに基づいて運用戦略を洗練できる。
実験結果から、ContextNavはさまざまなデータセットをまたいだ最先端のパフォーマンスを実現し、マルチモーダルICLにおけるスケーラブルで堅牢なコンテキスト化を実現するためのエージェントワークフローの可能性を強調した。
関連論文リスト
- CoT Referring: Improving Referring Expression Tasks with Grounded Reasoning [67.18702329644526]
CoT Referringは、構造化されたチェーン・オブ・シークレット・トレーニングデータ構造を通じて、モデル推論をモダリティにわたって強化する。
トレーニングデータを再構築して、新たな出力フォームを実行し、既存のデータセットに新たなアノテーションを提供します。
また、検出とセグメント化機能を統合MLLMフレームワークに統合し、新しい適応重み付き損失で学習して性能を最適化する。
論文 参考訳(メタデータ) (2025-10-03T08:50:21Z) - cMALC-D: Contextual Multi-Agent LLM-Guided Curriculum Learning with Diversity-Based Context Blending [3.939989712024268]
コンテキストMARL(cMARL)は、コンテキスト変数で環境をパラメータ化し、コンテキストに依存しないポリシーをトレーニングすることでこの問題に対処する。
既存のcMARLメソッドは、カリキュラム学習を使用して、文脈に依存しないポリシーを訓練し評価する。
多様性に基づくコンテキストブレンディング(cMALC-D)を用いたマルチエージェントLLM指導カリキュラム学習を提案する。
論文 参考訳(メタデータ) (2025-08-28T14:16:17Z) - DeepMEL: A Multi-Agent Collaboration Framework for Multimodal Entity Linking [18.8210909297317]
Multimodal Entity Linkingは、テキストとビジュアルの言及と、マルチモーダルな知識グラフのエンティティを関連付けることを目的としている。
現状の手法では、不完全文脈情報、粗いクロスモーダル融合、共同言語モデル(LLM)と大規模視覚モデル(LVM)の難しさといった課題に直面している。
マルチエージェント協調推論に基づく新しいフレームワークであるDeepMELを提案する。
論文 参考訳(メタデータ) (2025-08-21T11:24:26Z) - True Multimodal In-Context Learning Needs Attention to the Visual Context [69.63677595066012]
MLLM(Multimodal Large Language Models)は、新しいタスクに適応したMICL(Multimodal In-Context Learning)を実現する。
現在のMLLMは、視覚的手がかりを無視し、テキストパターンを過度に無視する傾向にあり、真のマルチモーダル適応よりも単なるテキスト模倣に繋がる。
視覚的コンテキストへのモデルへの参加を促す,効率的な微調整戦略であるDynamic Attention Reallocation (DARA)を紹介した。
論文 参考訳(メタデータ) (2025-07-21T17:08:18Z) - IDEA: Inverted Text with Cooperative Deformable Aggregation for Multi-modal Object Re-Identification [60.38841251693781]
本稿では,ロバストなマルチモーダルオブジェクトReIDを生成する新しいフレームワークを提案する。
我々のフレームワークは、多モーダル情報と逆テキストからのセマンティックガイダンスを統合するために、Modal PrefixesとInverseNetを使用している。
3つのマルチモーダルオブジェクトReIDベンチマーク実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2025-03-13T13:00:31Z) - Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - CUE-M: Contextual Understanding and Enhanced Search with Multimodal Large Language Model [9.224965304457708]
本稿では,新しいマルチモーダル検索フレームワークであるMLLM (CUE-M) について述べる。
画像コンテキストの強化、インテントの洗練、コンテキストクエリ生成、外部APIの統合、関連ベースのフィルタリングなどが含まれている。
知識に基づくVQAと安全性に関する実単語データセットと公開ベンチマークの実験は、CUE-Mがベースラインを上回り、新しい最先端の結果を確立することを示した。
論文 参考訳(メタデータ) (2024-11-19T07:16:48Z) - SituationalLLM: Proactive language models with scene awareness for dynamic, contextual task guidance [13.155859243167619]
本研究では,構造化シーン情報を大規模言語モデルに統合する新しいアプローチである PresentalLLM を提案する。
カスタムのScene Graph Languageでオブジェクト、属性、関係をエンコードすることで、AciencealLLMは環境コンテキストのギャップを積極的に識別し、ユーザインタラクション中に明確化を求める。
実験結果から、ALLLMはタスク特異性、信頼性、適応性において、ジェネリックLLMベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-06-19T07:42:48Z) - Meta-Task Prompting Elicits Embeddings from Large Language Models [54.757445048329735]
本稿では,新しい教師なしテキスト埋め込み手法であるMeta-Task Prompting with Explicit One-Word Limitationを紹介する。
モデル微調整を必要とせずに,大規模言語モデルから高品質な文埋め込みを生成する。
提案法は,多種多様なシナリオにまたがって生成を組み込む汎用的で資源効率のよい手法を提供する。
論文 参考訳(メタデータ) (2024-02-28T16:35:52Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。