論文の概要: Prompting ChatGPT in MNER: Enhanced Multimodal Named Entity Recognition
with Auxiliary Refined Knowledge
- arxiv url: http://arxiv.org/abs/2305.12212v2
- Date: Wed, 18 Oct 2023 17:05:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 20:20:42.392005
- Title: Prompting ChatGPT in MNER: Enhanced Multimodal Named Entity Recognition
with Auxiliary Refined Knowledge
- Title(参考訳): MNERにおけるPrompting ChatGPT:補助的知識を用いたマルチモーダル名前付きエンティティ認識の強化
- Authors: Jinyuan Li, Han Li, Zhuo Pan, Di Sun, Jiahao Wang, Wenkun Zhang, Gang
Pan
- Abstract要約: PGIM - ChatGPTを暗黙の知識基盤として活用することを目的とした2段階のフレームワークを提案する。
PGIMはより効率的なエンティティ予測のための補助知識を生成する。
これは、2つの古典的なMNERデータセットで最先端の手法より優れている。
- 参考スコア(独自算出の注目度): 27.152813529536424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Named Entity Recognition (MNER) on social media aims to enhance
textual entity prediction by incorporating image-based clues. Existing studies
mainly focus on maximizing the utilization of pertinent image information or
incorporating external knowledge from explicit knowledge bases. However, these
methods either neglect the necessity of providing the model with external
knowledge, or encounter issues of high redundancy in the retrieved knowledge.
In this paper, we present PGIM -- a two-stage framework that aims to leverage
ChatGPT as an implicit knowledge base and enable it to heuristically generate
auxiliary knowledge for more efficient entity prediction. Specifically, PGIM
contains a Multimodal Similar Example Awareness module that selects suitable
examples from a small number of predefined artificial samples. These examples
are then integrated into a formatted prompt template tailored to the MNER and
guide ChatGPT to generate auxiliary refined knowledge. Finally, the acquired
knowledge is integrated with the original text and fed into a downstream model
for further processing. Extensive experiments show that PGIM outperforms
state-of-the-art methods on two classic MNER datasets and exhibits a stronger
robustness and generalization capability.
- Abstract(参考訳): ソーシャルメディア上でのマルチモーダル名前付きエンティティ認識(MNER)は、画像に基づく手がかりを取り入れることで、テキストエンティティ予測を強化することを目的としている。
既存の研究は主に、関連する画像情報の活用の最大化や、明示的な知識ベースからの外部知識の取り込みに重点を置いている。
しかし、これらの手法は、モデルに外部知識を提供する必要性を無視したり、取得した知識に高い冗長性の問題に遭遇する。
本稿では,ChatGPTを暗黙の知識基盤として活用し,より効率的なエンティティ予測のための補助知識をヒューリスティックに生成することを目的とした2段階フレームワークPGIMを提案する。
具体的には、pgimは、少数の事前定義された人工サンプルから適切な例を選択するマルチモーダル類似の例認識モジュールを含んでいる。
これらの例は、MNERに合わせたフォーマット化されたプロンプトテンプレートに統合され、ChatGPTをガイドして補助的な洗練された知識を生成する。
最後に、取得した知識を原文に統合して下流モデルに供給し、さらなる処理を行う。
広範な実験により、PGIMは2つの古典的MNERデータセット上で最先端の手法より優れており、強い堅牢性と一般化能力を示している。
関連論文リスト
- RoRA-VLM: Robust Retrieval-Augmented Vision Language Models [41.09545760534495]
RORA-VLMは、視覚言語モデルに特化して設計された、新規で堅牢な検索拡張フレームワークである。
提案手法の有効性とロバスト性を,広く採用されている3つのベンチマークデータセット上で検証する。
論文 参考訳(メタデータ) (2024-10-11T14:51:00Z) - Multiple Heads are Better than One: Mixture of Modality Knowledge Experts for Entity Representation Learning [51.80447197290866]
高品質なマルチモーダル実体表現を学習することは、マルチモーダル知識グラフ(MMKG)表現学習の重要な目標である。
既存の手法は、エレガントなエンティティワイドマルチモーダル融合戦略の構築に重点を置いている。
適応型マルチモーダルな実体表現を学習するために,Mixture of Modality Knowledge Expert (MoMoK) を用いた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-27T06:36:17Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Dual-Gated Fusion with Prefix-Tuning for Multi-Modal Relation Extraction [13.454953507205278]
マルチモーダル関係抽出は、視覚的手がかりを含むテキスト中の2つの実体間の関係を特定することを目的としている。
本稿では,テキスト,エンティティペア,画像/オブジェクトのより深い相関関係をよりよく捉えるための新しいMMREフレームワークを提案する。
本手法は, 少数の状況においても, 強力な競合相手と比較して優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-06-19T15:31:34Z) - Information Screening whilst Exploiting! Multimodal Relation Extraction
with Feature Denoising and Multimodal Topic Modeling [96.75821232222201]
既存のマルチモーダル関係抽出(MRE)研究は、内部情報過剰利用と外部情報過多という2つの共存課題に直面している。
内部情報スクリーニングと外部情報活用を同時に実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:57Z) - Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。
新たなマルチモーダル検索フレームワーク(MoRe)を提案する。
MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文 参考訳(メタデータ) (2022-12-03T13:11:32Z) - Knowledge Graph Augmented Network Towards Multiview Representation
Learning for Aspect-based Sentiment Analysis [96.53859361560505]
本稿では,知識グラフ拡張ネットワーク(KGAN)を提案する。
KGANは感情の特徴表現を、文脈、構文、知識に基づく複数の視点から捉えている。
3つの人気のあるABSAベンチマークの実験は、我々のKGANの有効性と堅牢性を示している。
論文 参考訳(メタデータ) (2022-01-13T08:25:53Z) - KAT: A Knowledge Augmented Transformer for Vision-and-Language [56.716531169609915]
我々は、OK-VQAのオープンドメインマルチモーダルタスクにおいて、最先端の強力な結果をもたらす新しいモデルである知識拡張トランスフォーマー(KAT)を提案する。
提案手法は,エンド・ツー・エンドのエンコーダ・デコーダアーキテクチャにおいて暗黙的かつ明示的な知識を統合しつつ,回答生成時に両知識源を共同で推論する。
我々の分析では、モデル予測の解釈可能性の向上に、明示的な知識統合のさらなる利点が見られる。
論文 参考訳(メタデータ) (2021-12-16T04:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。