論文の概要: SAKE: Self-aware Knowledge Exploitation-Exploration for Grounded Multimodal Named Entity Recognition
- arxiv url: http://arxiv.org/abs/2604.20146v1
- Date: Wed, 22 Apr 2026 03:17:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:10.947954
- Title: SAKE: Self-aware Knowledge Exploitation-Exploration for Grounded Multimodal Named Entity Recognition
- Title(参考訳): SAKE: 接地型マルチモーダル名前付きエンティティ認識のための自己認識型知識爆発探索
- Authors: Jielong Tang, Xujie Yuan, Jiayang Liu, Jianxing Yu, Xiao Dong, Lin Chen, Yunlai Teng, Shimin Di, Jian Yin,
- Abstract要約: Grounded Multimodal Named Entity Recognition (GMNER)は、名前付きエンティティを抽出し、画像とテキストのペア内で視覚領域をローカライズすることを目的としている。
オープンワールドのソーシャルメディアプラットフォームでは、GMNERは長い尾を持ち、急速に進化し、目に見えない存在であるため、依然として挑戦的だ。
本研究では、内部知識の活用と外部知識探索を調和させるエンドツーエンドのエージェントフレームワークであるSAKEを提案する。
- 参考スコア(独自算出の注目度): 28.17858615204594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grounded Multimodal Named Entity Recognition (GMNER) aims to extract named entities and localize their visual regions within image-text pairs, serving as a pivotal capability for various downstream applications. In open-world social media platforms, GMNER remains challenging due to the prevalence of long-tailed, rapidly evolving, and unseen entities. To tackle this, existing approaches typically rely on either external knowledge exploration through heuristic retrieval or internal knowledge exploitation via iterative refinement in Multimodal Large Language Models (MLLMs). However, heuristic retrieval often introduces noisy or conflicting evidence that degrades precision on known entities, while solely internal exploitation is constrained by the knowledge boundaries of MLLMs and prone to hallucinations. To address this, we propose SAKE, an end-to-end agentic framework that harmonizes internal knowledge exploitation and external knowledge exploration via self-aware reasoning and adaptive search tool invocation. We implement this via a two-stage training paradigm. First, we propose Difficulty-aware Search Tag Generation, which quantifies the model's entity-level uncertainty through multiple forward samplings to produce explicit knowledge-gap signals. Based on these signals, we construct SAKE-SeCoT, a high-quality Chain-of-Thought dataset that equips the model with basic self-awareness and tool-use capabilities through supervised fine-tuning. Second, we employ agentic reinforcement learning with a hybrid reward function that penalizes unnecessary retrieval, enabling the model to evolve from rigid search imitation to genuine self-aware decision-making about when retrieval is truly necessary. Extensive experiments on two widely used social media benchmarks demonstrate SAKE's effectiveness.
- Abstract(参考訳): Grounded Multimodal Named Entity Recognition (GMNER)は、名前付きエンティティを抽出し、画像とテキストのペア内で視覚領域をローカライズすることを目的としている。
オープンワールドのソーシャルメディアプラットフォームでは、GMNERは長い尾を持ち、急速に進化し、目に見えない存在であるため、依然として挑戦的だ。
これを解決するために、既存のアプローチは通常、ヒューリスティック検索による外部知識探索と、マルチモーダル大言語モデル(MLLM)における反復的洗練による内部知識活用のいずれかに依存している。
しかし、ヒューリスティック検索は、しばしば、既知の実体の精度を低下させるノイズや矛盾する証拠を導入し、一方、内部的な搾取はMLLMの知識境界によって制限され、幻覚を招きやすい。
そこで本稿では,自己認識型推論と適応型検索ツールによる内部知識の活用と外部知識探索を調和させる,エンドツーエンドのエージェントフレームワークであるSAKEを提案する。
これを2段階のトレーニングパラダイムで実装します。
まず、複数のフォワードサンプリングによってモデルの実体レベルの不確実性を定量化し、明示的な知識ギャップ信号を生成するDifficulty-Aware Search Tag Generationを提案する。
これらの信号に基づいて、教師付き微調整により基本的自己認識とツール使用能力を備えた高品質なChain-of-ThoughtデータセットであるSAKE-SeCoTを構築する。
第二に、不要な検索をペナルティ化するハイブリッド報酬関数を用いたエージェント強化学習を用いて、厳密な検索模倣から、検索が本当に必要なときの真の自己認識決定まで、モデルを進化させることができる。
2つの広く利用されているソーシャルメディアベンチマークに関する大規模な実験は、SAKEの有効性を示している。
関連論文リスト
- POINTS-Seeker: Towards Training a Multimodal Agentic Search Model from Scratch [84.73366911912512]
エージェント・シーディング(Agenic Seeding)は,エージェント行動の抽出に必要な前駆体を織り込むための専用フェーズである。
本稿では、最近の対話を高忠実に保ちながら、歴史的コンテキストをレンダリングを介して視覚空間に折り畳みながら、適応的履歴認識圧縮方式であるV-Foldを提案する。
我々は,最新のマルチモーダルエージェントサーチモデルであるPOINTS-Seeker-8Bを開発した。
論文 参考訳(メタデータ) (2026-04-15T16:09:37Z) - Leveraging LLM Parametric Knowledge for Fact Checking without Retrieval [60.25608870901428]
信頼性は、大規模言語モデル(LLM)上に構築されたエージェントAIシステムの中核研究課題である
本研究では,任意の自然言語クレームの検証に焦点をあて,検索なしで事実チェックを行うタスクを提案する。
論文 参考訳(メタデータ) (2026-03-05T18:42:51Z) - Knowledge Integration Decay in Search-Augmented Reasoning of Large Language Models [36.1675867877378]
本研究では,知識利用の安定化を目的とした,学習不要な推論時間戦略であるSelf-Anchored Knowledge Integration (SAKE)を提案する。
SAKEはKnowledge Decay(KID)を大幅に軽減し、パフォーマンスを改善し、エージェントLLMにおける知識統合のための軽量で効果的なソリューションを提供する。
論文 参考訳(メタデータ) (2026-02-10T08:20:26Z) - Probing the Knowledge Boundary: An Interactive Agentic Framework for Deep Knowledge Extraction [29.717986496967978]
本稿では,大規模言語モデルの知識を体系的に抽出し,定量化する対話型エージェントフレームワークを提案する。
本手法は,異なる粒度で知識を探索する4つの適応探索ポリシーを含む。
我々は、より大きなモデルが常により多くの知識を抽出する明確な知識スケーリング法を観察する。
論文 参考訳(メタデータ) (2026-02-01T01:43:44Z) - Generative Human-Object Interaction Detection via Differentiable Cognitive Steering of Multi-modal LLMs [85.69785384599827]
人間と物体の相互作用(Human-object Interaction、HOI)の検出は、人と物体のペアとそれらの相互作用を局在させることを目的としている。
既存のメソッドはクローズドワールドの仮定の下で動作し、タスクを未定義の小さな動詞集合上の分類問題として扱う。
本稿では,閉集合分類タスクから開語彙生成問題へのHOI検出を再構成する新しい生成推論・ステアブル知覚フレームワークGRASP-HOを提案する。
論文 参考訳(メタデータ) (2025-12-19T14:41:50Z) - From Semantics, Scene to Instance-awareness: Distilling Foundation Model for Open-vocabulary Situation Recognition [14.16399307533106]
マルチモーダル大言語モデル(MLLM)は、強いゼロショット能力を示すが、複雑な接地状況認識(GSR)と競合する。
我々は,教師MLLMから小さなGSRモデルへの知識の伝達を利用して,その一般化とゼロショット能力を向上させる。
基礎モデルから豊富なマルチモーダル知識を蒸留する新しいフレームワークであるMIPD(Multimodal Interactive Prompt Distillation)を提案する。
論文 参考訳(メタデータ) (2025-07-19T16:29:02Z) - Unveiling Knowledge Utilization Mechanisms in LLM-based Retrieval-Augmented Generation [77.10390725623125]
検索強化世代(RAG)は知識範囲の拡大に広く利用されている。
RAGは、オープンドメインの質問応答のような知識集約的なタスクを約束しているので、複雑なタスクやインテリジェントアシスタントへの幅広い応用は、その実用性をさらに進歩させてきた。
本稿では、RAGが内部(パラメトリック)知識と外部(検索)知識を統合する本質的なメカニズムを体系的に検討する。
論文 参考訳(メタデータ) (2025-05-17T13:13:13Z) - A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8285345915925]
推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。
大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。
我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文 参考訳(メタデータ) (2025-04-12T01:27:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。