論文の概要: E2E-GMNER: End-to-End Generative Grounded Multimodal Named Entity Recognition
- arxiv url: http://arxiv.org/abs/2604.17319v1
- Date: Sun, 19 Apr 2026 08:18:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.461923
- Title: E2E-GMNER: End-to-End Generative Grounded Multimodal Named Entity Recognition
- Title(参考訳): E2E-GMNER: エンド・ツー・エンド生成型マルチモーダル名前付きエンティティ認識
- Authors: Meng Zhang, Jinzhong Ning, Xiaolong Wu, Hongfei Lin, Yijia Zhang,
- Abstract要約: Grounded Multimodal Named Entity Recognition (GMNER) は、テキスト中の名前付きエンティティの参照を共同で識別することを目的としている。
E2E-GMNERは、エンティティ認識、セマンティックタイピング、視覚的接地、暗黙的知識推論を統一する完全なエンドツーエンド生成フレームワークである。
- 参考スコア(独自算出の注目度): 33.81090014865745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grounded Multimodal Named Entity Recognition (GMNER) aims to jointly identify named entity mentions in text, predict their semantic types, and ground each entity to a corresponding visual region in an associated image. Existing approaches predominantly adopt pipeline-based architectures that decouple textual entity recognition and visual grounding, leading to error accumulation and suboptimal joint optimization. In this paper, we propose E2E-GMNER, a fully end-to-end generative framework that unifies entity recognition, semantic typing, visual grounding, and implicit knowledge reasoning within a single multimodal large language model. We formulate GMNER as an instruction-tuned conditional generation task and incorporate chain-of-thought reasoning to enable the model to adaptively determine when visual evidence or background knowledge is informative, reducing reliance on noisy cues. To further address the instability of generative bounding box prediction, we introduce Gaussian Risk-Aware Box Perturbation (GRBP), which replaces hard box supervision with probabilistically perturbed soft targets to improve robustness against annotation noise and discretization errors. Extensive experiments on the Twitter-GMNER and Twitter-FMNERG benchmarks demonstrate that E2E-GMNER achieves highly competitive performance compared with state of the art methods, validating the effectiveness of unified end-to-end optimization and noise-aware grounding supervision. Code is available at:https://github.com/Finch-coder/E2E-GMNER
- Abstract(参考訳): Grounded Multimodal Named Entity Recognition (GMNER) は、テキスト中の名前付きエンティティの参照を共同で識別し、それらの意味型を予測し、各エンティティを関連画像内の対応する視覚領域にグラウンドすることを目的としている。
既存のアプローチは主に、テキストエンティティ認識と視覚的グラウンドを分離するパイプラインベースのアーキテクチャを採用しており、エラーの蓄積と最適部分の関節最適化につながっている。
本稿では,エンティティ認識,セマンティックタイピング,視覚的グラウンドディング,暗黙的知識推論を単一マルチモーダルな大規模言語モデル内に統一する,完全なエンドツーエンド生成フレームワークであるE2E-GMNERを提案する。
GMNERを命令調整条件生成タスクとして定式化し、チェーン・オブ・シント推論を導入し、視覚的エビデンスや背景知識が情報化されるタイミングをモデルが適応的に決定できるようにし、ノイズの多い手がかりへの依存を減らす。
生成的バウンディングボックス予測の不安定性にさらに対処するため,ハードボックスの監視を確率的に乱れたソフトターゲットに置き換えたGaussian Risk-Aware Box Perturbation (GRBP)を導入する。
Twitter-GMNERとTwitter-FMNERGベンチマークの大規模な実験は、E2E-GMNERが最先端の手法と比較して高い競争力を発揮することを示した。
コードは、https://github.com/Finch-coder/E2E-GMNERで入手できる。
関連論文リスト
- AffectAgent: Collaborative Multi-Agent Reasoning for Retrieval-Augmented Multimodal Emotion Recognition [62.16431420189863]
LLMに基づくマルチモーダル感情認識は静的なパラメトリックメモリに依存しており、ニュアンス化された感情状態の解釈時にしばしば幻覚を与える。
本稿では,感情指向型マルチエージェント検索拡張生成フレームワークであるAffectAgentを紹介する。
AffectAgentは3つの共同最適化されたエージェント、すなわちクエリプランナー、エビデンスフィルタ、感情生成器から構成される。
論文 参考訳(メタデータ) (2026-04-14T13:49:19Z) - OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL [63.388513841293616]
既存の偽造検出手法は、現実世界の誤報に多いインターリーブされたテキスト、画像、ビデオを扱うのに失敗する。
このギャップを埋めるため,本論文では,オムニバス・ビジョン言語による偽造検出と接地のための統一フレームワークの開発を目標としている。
我々は、OmniVL-Guardという、オムニバス視覚言語による偽造検出と接地のためのバランスの取れた強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:41:36Z) - GenCNER: A Generative Framework for Continual Named Entity Recognition [22.669221793494163]
従来の名前付きエンティティ認識(NER)は、テキストの参照を事前に定義されたエンティティタイプに識別することを目的としている。
NERのための既存の継続学習(CL)手法は、破滅的な忘れ込みと非エンテント型のセマンティックシフトの課題に直面している。
我々は,CNERの欠点を軽減するための簡易かつ効果的な生成フレームワークであるGenCNERを提案する。
論文 参考訳(メタデータ) (2025-10-13T14:15:31Z) - Advancing Grounded Multimodal Named Entity Recognition via LLM-Based Reformulation and Box-Based Segmentation [48.47565361014847]
Grounded Multimodal Named Entity Recognition (GMNER) タスクは、名前付きエンティティ、エンティティタイプ、および対応する視覚領域を識別することを目的としている。
我々は,大規模な言語モデルを活用することで,GMNERをMNER-VE-VGタスクに再構成する統一フレームワークであるRiVEGを提案する。
論文 参考訳(メタデータ) (2024-06-11T13:52:29Z) - LLMs as Bridges: Reformulating Grounded Multimodal Named Entity Recognition [28.136662420053568]
Grounded Multimodal Named Entity Recognition (GMNER) は、名前付きエンティティ、エンティティタイプ、および対応する視覚領域を識別することを目的とした、初期段階のマルチモーダルタスクである。
本稿では,大規模な言語モデル(LLM)を接続ブリッジとして活用することにより,GMNERをMNER-VE-VGタスクに再構成する統一フレームワークであるRiVEGを提案する。
論文 参考訳(メタデータ) (2024-02-15T14:54:33Z) - Be Your Own Neighborhood: Detecting Adversarial Example by the
Neighborhood Relations Built on Self-Supervised Learning [64.78972193105443]
本稿では,予測に有効な新しいAE検出フレームワークを提案する。
AEの異常な関係と拡張バージョンを区別して検出を行う。
表現を抽出し、ラベルを予測するために、既製の自己監視学習(SSL)モデルが使用される。
論文 参考訳(メタデータ) (2022-08-31T08:18:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。