論文の概要: Code-MIE: A Code-style Model for Multimodal Information Extraction with Scene Graph and Entity Attribute Knowledge Enhancement
- arxiv url: http://arxiv.org/abs/2603.20781v1
- Date: Sat, 21 Mar 2026 12:16:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.080416
- Title: Code-MIE: A Code-style Model for Multimodal Information Extraction with Scene Graph and Entity Attribute Knowledge Enhancement
- Title(参考訳): Code-MIE: シーングラフとエンティティ属性知識強化によるマルチモーダル情報抽出のためのコードスタイルモデル
- Authors: Jiang Liu, Ge Qiu, Hao Fei, Dongdong Xie, Jinbo Li, Fei Li, Chong Teng, Donghong Ji,
- Abstract要約: コード型マルチモーダル情報抽出フレームワーク(Code-MIE)を提案する。
Code-MIEは、MIEを統一されたコード理解と生成として定式化する。
提案手法は6つの競合するベースラインモデルと比較して最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 32.720833540821125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid development of large language models (LLMs), more and more researchers have paid attention to information extraction based on LLMs. However, there are still some spaces to improve in the existing related methods. First, existing multimodal information extraction (MIE) methods usually employ natural language templates as the input and output of LLMs, which mismatch with the characteristics of information tasks that mostly include structured information such as entities and relations. Second, although a few methods have adopted structured and more IE-friendly code-style templates, they just explored their methods on text-only IE rather than multimodal IE. Moreover, their methods are more complex in design, requiring separate templates to be designed for each task. In this paper, we propose a Code-style Multimodal Information Extraction framework (Code-MIE) which formalizes MIE as unified code understanding and generation. Code-MIE has the following novel designs: (1) Entity attributes such as gender, affiliation are extracted from the text to guide the model to understand the context and role of entities. (2) Images are converted into scene graphs and visual features to incorporate rich visual information into the model. (3) The input template is constructed as a Python function, where entity attributes, scene graphs and raw text compose of the function parameters. In contrast, the output template is formalized as Python dictionaries containing all extraction results such as entities, relations, etc. To evaluate Code-MIE, we conducted extensive experiments on the M$^3$D, Twitter-15, Twitter-17, and MNRE datasets. The results show that our method achieves state-of-the-art performance compared to six competing baseline models, with 61.03\% and 60.49\% on the English and Chinese datasets of M$^3$D, and 76.04\%, 88.07\%, and 73.94\% on the other three datasets.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な発展に伴い、LLMに基づく情報抽出に注目する研究者が増えている。
しかし、既存の関連手法では改善すべき空間がまだいくつか残っている。
まず、既存のマルチモーダル情報抽出法(MIE)では、通常、自然言語テンプレートをLPMの入力と出力として使用し、エンティティやリレーションシップなどの構造化情報を含む情報タスクの特徴とミスマッチする。
第二に、いくつかのメソッドが構造化され、よりIEフレンドリなコードスタイルのテンプレートを採用していますが、彼らは、マルチモーダルなIEではなく、テキストのみのIEでメソッドを探索しました。
さらに、それらのメソッドは設計が複雑で、各タスクのために別々のテンプレートを設計する必要がある。
本稿では,MIEを統一的なコード理解と生成として定式化する,コードスタイルのマルチモーダル情報抽出フレームワーク(Code-MIE)を提案する。
Code-MIE は,(1) ジェンダー,アフィリエイトなどのエンティティ属性をテキストから抽出し,エンティティのコンテキストや役割を理解するためのモデルを示す。
2)画像はシーングラフや視覚特徴に変換され,リッチな視覚情報をモデルに組み込む。
(3) 入力テンプレートはPython関数として構築され、エンティティ属性、シーングラフ、生テキストが関数パラメータを構成する。
対照的に、出力テンプレートは、エンティティやリレーションなどのすべての抽出結果を含むPython辞書として形式化されている。
Code-MIEを評価するために、M$^3$D、Twitter-15、Twitter-17、MNREデータセットについて広範な実験を行った。
その結果,M$^3$D,76.04\%,88.07\%,73.94\%の英語と中国語のデータセットに対して61.03\%,60.49\%の競合するベースラインモデルと比較して,最先端の性能が得られた。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - M$^{3}$D: A Multimodal, Multilingual and Multitask Dataset for Grounded Document-level Information Extraction [36.506500653677364]
我々はM$3$Dというマルチモーダル多言語マルチタスクデータセットを構築した。
ペア化された文書レベルのテキストとビデオを含み、マルチモーダル情報を豊かにする。
広く使われている2つの言語、すなわち英語と中国語をサポートしている。
論文 参考訳(メタデータ) (2024-12-05T10:00:58Z) - DIM: Dynamic Integration of Multimodal Entity Linking with Large Language Model [16.20833396645551]
本稿では,ChatGPTを用いた動的エンティティ抽出を提案する。
知識ベース(DIM)とマルチモーダル情報を動的に統合し、視覚的理解にLarge Language Model(LLM)の機能を利用する方法を提案する。
論文 参考訳(メタデータ) (2024-06-27T15:18:23Z) - A Dual-way Enhanced Framework from Text Matching Point of View for Multimodal Entity Linking [17.847936914174543]
マルチモーダルエンティティリンク(MEL)は、ウィキペディアのような知識グラフ(KG)のエンティティに曖昧な言及を多モーダル情報にリンクすることを目的としている。
我々は、各マルチモーダル情報(テキストと画像)をクエリとして扱うニューラルテキストマッチング問題として、マルチモーダルエンティティリンクを定式化する。
本稿では,MELのための双方向拡張(DWE)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-19T03:15:50Z) - LayoutNUWA: Revealing the Hidden Layout Expertise of Large Language
Models [84.16541551923221]
本稿では,レイアウト生成をコード生成タスクとして扱うモデルを提案する。
3つの相互接続モジュールからなるCode Instruct Tuning (CIT) アプローチを開発した。
複数のデータセット上で、最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-09-18T06:35:10Z) - ChatIE: Zero-Shot Information Extraction via Chatting with ChatGPT [89.49161588240061]
ゼロショット情報抽出(IE)は、注釈のないテキストからIEシステムを構築することを目的としている。
大規模言語モデル(LLMs、GPT-3、ChatGPT)に対する最近の取り組みは、ゼロショット設定での有望なパフォーマンスを示している。
ゼロショットIEタスクを2段階フレームワーク(ChatIE)でマルチターン質問応答問題に変換する。
論文 参考訳(メタデータ) (2023-02-20T12:57:12Z) - Understanding HTML with Large Language Models [73.92747433749271]
大規模言語モデル(LLM)は、様々な自然言語タスクにおいて例外的な性能を示している。
我々は,HTML 理解モデル (微調整 LLM ) と,その機能に関する3つのタスクの詳細な分析に貢献する。
本稿では,標準自然言語コーパスで事前訓練されたLLMが,HTML理解タスクに極めて適していることを示す。
論文 参考訳(メタデータ) (2022-10-08T07:27:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。