論文の概要: Prompt ChatGPT In MNER: Improved multimodal named entity recognition
method based on auxiliary refining knowledge from ChatGPT
- arxiv url: http://arxiv.org/abs/2305.12212v1
- Date: Sat, 20 May 2023 15:24:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 00:00:55.687298
- Title: Prompt ChatGPT In MNER: Improved multimodal named entity recognition
method based on auxiliary refining knowledge from ChatGPT
- Title(参考訳): MNERにおけるPrompt ChatGPT:ChatGPTからの補助的精錬知識に基づくマルチモーダル名称認識法の改良
- Authors: Jinyuan Li, Han Li, Zhuo Pan, Gang Pan
- Abstract要約: 本稿では,Pmpt ChatGPT In MNER (PGIM) という概念的にシンプルなフレームワークを提案する。
我々はChatGPTを暗黙の知識エンジンとして活用し、補助知識を取得し、MNERタスクにおけるモデルの性能を高める。
我々のPGIMは、2つの古典的MNERデータセット上で既存の最先端の手法を著しく上回っている。
- 参考スコア(独自算出の注目度): 16.55170958040022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Named Entity Recognition (MNER) on social media aims to enhance
textual entity prediction by incorporating image-based clues. Existing research
in this domain has primarily focused on maximizing the utilization of
potentially relevant information in images or incorporating external knowledge
from explicit knowledge bases (KBs). However, these methods either neglect the
necessity of providing the model with relevant external knowledge, or the
retrieved external knowledge suffers from high redundancy. To address these
problems, we propose a conceptually simple two-stage framework called Prompt
ChatGPT In MNER (PGIM) in this paper. We leverage ChatGPT as an implicit
knowledge engine to acquire auxiliary refined knowledge, thereby bolstering the
model's performance in MNER tasks. Specifically, we first utilize a Multimodal
Similar Example Awareness module to select suitable examples from a small
number of manually annotated samples. These examples are then integrated into a
formatted prompt template tailored to the MNER task, guiding ChatGPT to
generate auxiliary refined knowledge. Finally, the acquired knowledge is
integrated with the raw text and inputted into the downstream model for further
processing. Extensive experiments show that our PGIM significantly outperforms
all existing state-of-the-art methods on two classic MNER datasets.
- Abstract(参考訳): ソーシャルメディア上でのマルチモーダル名前付きエンティティ認識(MNER)は、画像に基づく手がかりを取り入れることで、テキストエンティティ予測を強化することを目的としている。
この領域における既存の研究は主に、画像中の潜在的関連情報の利用を最大化することや、明示的な知識ベース(KB)から外部知識を取り入れることに焦点を当てている。
しかしながら、これらの手法は、モデルに関連する外部知識を提供する必要性を無視するか、取得した外部知識が高い冗長性に悩まされるかのいずれかである。
本稿では,Pmpt ChatGPT In MNER (PGIM) という,概念的にシンプルな2段階のフレームワークを提案する。
我々はchatgptを暗黙の知識エンジンとして活用し,mnerタスクにおけるモデルの性能を向上させる。
具体的には、まずマルチモーダルな類似例認識モジュールを使用して、少数の手動注記サンプルから適切なサンプルを選択する。
これらの例をmnerタスクに合わせたフォーマットされたプロンプトテンプレートに統合し、chatgptを補助的な知識を生成するようにガイドする。
最後に、取得した知識を原文と統合し、下流モデルに入力してさらなる処理を行う。
大規模実験により、PGIMは2つの古典的MNERデータセット上で既存の最先端手法を著しく上回っていることがわかった。
関連論文リスト
- RoRA-VLM: Robust Retrieval-Augmented Vision Language Models [41.09545760534495]
RORA-VLMは、視覚言語モデルに特化して設計された、新規で堅牢な検索拡張フレームワークである。
提案手法の有効性とロバスト性を,広く採用されている3つのベンチマークデータセット上で検証する。
論文 参考訳(メタデータ) (2024-10-11T14:51:00Z) - Multiple Heads are Better than One: Mixture of Modality Knowledge Experts for Entity Representation Learning [51.80447197290866]
高品質なマルチモーダル実体表現を学習することは、マルチモーダル知識グラフ(MMKG)表現学習の重要な目標である。
既存の手法は、エレガントなエンティティワイドマルチモーダル融合戦略の構築に重点を置いている。
適応型マルチモーダルな実体表現を学習するために,Mixture of Modality Knowledge Expert (MoMoK) を用いた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-27T06:36:17Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Dual-Gated Fusion with Prefix-Tuning for Multi-Modal Relation Extraction [13.454953507205278]
マルチモーダル関係抽出は、視覚的手がかりを含むテキスト中の2つの実体間の関係を特定することを目的としている。
本稿では,テキスト,エンティティペア,画像/オブジェクトのより深い相関関係をよりよく捉えるための新しいMMREフレームワークを提案する。
本手法は, 少数の状況においても, 強力な競合相手と比較して優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-06-19T15:31:34Z) - Information Screening whilst Exploiting! Multimodal Relation Extraction
with Feature Denoising and Multimodal Topic Modeling [96.75821232222201]
既存のマルチモーダル関係抽出(MRE)研究は、内部情報過剰利用と外部情報過多という2つの共存課題に直面している。
内部情報スクリーニングと外部情報活用を同時に実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:57Z) - Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。
新たなマルチモーダル検索フレームワーク(MoRe)を提案する。
MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文 参考訳(メタデータ) (2022-12-03T13:11:32Z) - Knowledge Graph Augmented Network Towards Multiview Representation
Learning for Aspect-based Sentiment Analysis [96.53859361560505]
本稿では,知識グラフ拡張ネットワーク(KGAN)を提案する。
KGANは感情の特徴表現を、文脈、構文、知識に基づく複数の視点から捉えている。
3つの人気のあるABSAベンチマークの実験は、我々のKGANの有効性と堅牢性を示している。
論文 参考訳(メタデータ) (2022-01-13T08:25:53Z) - KAT: A Knowledge Augmented Transformer for Vision-and-Language [56.716531169609915]
我々は、OK-VQAのオープンドメインマルチモーダルタスクにおいて、最先端の強力な結果をもたらす新しいモデルである知識拡張トランスフォーマー(KAT)を提案する。
提案手法は,エンド・ツー・エンドのエンコーダ・デコーダアーキテクチャにおいて暗黙的かつ明示的な知識を統合しつつ,回答生成時に両知識源を共同で推論する。
我々の分析では、モデル予測の解釈可能性の向上に、明示的な知識統合のさらなる利点が見られる。
論文 参考訳(メタデータ) (2021-12-16T04:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。