論文の概要: ReFineG: Synergizing Small Supervised Models and LLMs for Low-Resource Grounded Multimodal NER
- arxiv url: http://arxiv.org/abs/2509.10975v1
- Date: Sat, 13 Sep 2025 20:32:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.863981
- Title: ReFineG: Synergizing Small Supervised Models and LLMs for Low-Resource Grounded Multimodal NER
- Title(参考訳): ReFineG:低リソースマルチモーダルNERのための小型スーパービジョンモデルとLCMの同期化
- Authors: Jielong Tang, Shuang Wang, Zhenxing Wang, Jianxing Yu, Jian Yin,
- Abstract要約: Grounded Multimodal Named Entity Recognition (GMNER)は、テキスト参照を共同で検出し、それらを視覚領域にグラウンドすることで、従来のNERを拡張している。
低リソースGMNER向けに,小型教師付きモデルと冷凍MLLMを統合する3段階協調フレームワークReFineGを提案する。
CCKS2025 GMNER Shared Taskでは、ReFineGがF1スコア0.6461で2位にランクインし、限られたアノテーションでその効果を実証した。
- 参考スコア(独自算出の注目度): 16.046325222014385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grounded Multimodal Named Entity Recognition (GMNER) extends traditional NER by jointly detecting textual mentions and grounding them to visual regions. While existing supervised methods achieve strong performance, they rely on costly multimodal annotations and often underperform in low-resource domains. Multimodal Large Language Models (MLLMs) show strong generalization but suffer from Domain Knowledge Conflict, producing redundant or incorrect mentions for domain-specific entities. To address these challenges, we propose ReFineG, a three-stage collaborative framework that integrates small supervised models with frozen MLLMs for low-resource GMNER. In the Training Stage, a domain-aware NER data synthesis strategy transfers LLM knowledge to small models with supervised training while avoiding domain knowledge conflicts. In the Refinement Stage, an uncertainty-based mechanism retains confident predictions from supervised models and delegates uncertain ones to the MLLM. In the Grounding Stage, a multimodal context selection algorithm enhances visual grounding through analogical reasoning. In the CCKS2025 GMNER Shared Task, ReFineG ranked second with an F1 score of 0.6461 on the online leaderboard, demonstrating its effectiveness with limited annotations.
- Abstract(参考訳): Grounded Multimodal Named Entity Recognition (GMNER)は、テキスト参照を共同で検出し、それらを視覚領域にグラウンドすることで、従来のNERを拡張している。
既存の教師付きメソッドは高いパフォーマンスを達成するが、コストのかかるマルチモーダルアノテーションに依存し、低リソースドメインでは性能が劣ることが多い。
MLLM(Multimodal Large Language Models)は、強力な一般化を示すが、ドメイン知識の衝突に悩まされ、ドメイン固有のエンティティに対する冗長または不正な言及を生成する。
これらの課題に対処するため,低リソースGMNERのための小型教師付きモデルと冷凍MLLMを統合する3段階協調フレームワークReFineGを提案する。
訓練段階において、ドメインを意識したNERデータ合成戦略は、LLM知識をドメイン知識の衝突を避けながら教師付きトレーニングを伴う小さなモデルに転送する。
精製段階において、不確実性に基づくメカニズムは、教師付きモデルからの確実な予測を保持し、不確実性のあるものをMLLMに委譲する。
グラウンディング段階において、マルチモーダルコンテキスト選択アルゴリズムは、アナログ推論による視覚的グラウンドリングを強化する。
CCKS2025 GMNER Shared Taskでは、ReFineGがF1スコア0.6461で2位にランクインし、限られたアノテーションでその効果を実証した。
関連論文リスト
- Distilling Transitional Pattern to Large Language Models for Multimodal Session-based Recommendation [67.84581846180458]
セッションベースのレコメンデーション(SBR)は、匿名セッションに基づいて次の項目を予測する。
近年のMultimodal SBR法は、モダリティ学習に単純化された事前学習モデルを用いるが、セマンティック・リッチネスに制限がある。
蒸留パラダイムを拡張し,MSBRの促進のための遷移パターンを分離・整合させる多モードLCM拡張フレームワークTPADを提案する。
論文 参考訳(メタデータ) (2025-04-13T07:49:08Z) - Let Synthetic Data Shine: Domain Reassembly and Soft-Fusion for Single Domain Generalization [68.41367635546183]
単一ドメインの一般化は、単一のソースからのデータを使用して、さまざまなシナリオで一貫したパフォーマンスでモデルをトレーニングすることを目的としている。
モデル一般化を改善するために合成データを活用した学習フレームワークDRSFを提案する。
論文 参考訳(メタデータ) (2025-03-17T18:08:03Z) - Vision-aware Multimodal Prompt Tuning for Uploadable Multi-source Few-shot Domain Adaptation [12.380114998101433]
本稿では,アップロード可能なマルチソース・マルチショットドメイン適応(UMFDA)スキーマを提案する。
これは、低計算負荷を維持しなければならないエッジサイドモデルにおける分散エッジ協調学習に属する。
分散スキーマ下での視覚対応マルチモーダル・プロンプト・チューニング・フレームワーク(VAMP)を提案する。
論文 参考訳(メタデータ) (2025-03-08T07:17:06Z) - R-MTLLMF: Resilient Multi-Task Large Language Model Fusion at the Wireless Edge [78.26352952957909]
マルチタスク大言語モデル(MTLLM)は、ユーザが複数のタスクを効率的に処理するための特殊なモデルを要求する無線エッジにおける多くのアプリケーションにとって重要である。
タスクベクトルによるモデル融合の概念は、MDLLMを生成するための微調整パラメータを組み合わせるための効率的なアプローチとして登場した。
本稿では,最悪の逆攻撃を前提として,エッジユーザがタスクベクトルを介して協調的にMTLMを作成できる問題について検討する。
論文 参考訳(メタデータ) (2024-11-27T10:57:06Z) - START: A Generalized State Space Model with Saliency-Driven Token-Aware Transformation [27.301312891532277]
ドメイン一般化(Domain Generalization, DG)は、複数のソースドメインから学習することで、モデルが対象ドメインを見えないように一般化できるようにすることを目的としている。
本稿では,最新技術(SOTA)のパフォーマンスを達成し,CNNやViTと競合する代替手段を提供するSTARTを提案する。
我々のSTARTは、SSMの入力依存行列内の有意なトークンのドメイン固有の特徴を選択的に摂動し、抑制することができるため、異なるドメイン間の差異を効果的に低減できる。
論文 参考訳(メタデータ) (2024-10-21T13:50:32Z) - Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality [69.76121008898677]
きめ細かい選択校正CLIPは局所的硬陰性損失と選択的校正正規化を統合している。
評価の結果、FSC-CLIPは、最先端モデルと同等の合成性を達成できるだけでなく、強力なマルチモーダル能力を保っていることがわかった。
論文 参考訳(メタデータ) (2024-10-07T17:16:20Z) - Advancing Grounded Multimodal Named Entity Recognition via LLM-Based Reformulation and Box-Based Segmentation [48.47565361014847]
Grounded Multimodal Named Entity Recognition (GMNER) タスクは、名前付きエンティティ、エンティティタイプ、および対応する視覚領域を識別することを目的としている。
我々は,大規模な言語モデルを活用することで,GMNERをMNER-VE-VGタスクに再構成する統一フレームワークであるRiVEGを提案する。
論文 参考訳(メタデータ) (2024-06-11T13:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。