論文の概要: Prompt Me Up: Unleashing the Power of Alignments for Multimodal Entity
and Relation Extraction
- arxiv url: http://arxiv.org/abs/2310.16822v1
- Date: Wed, 25 Oct 2023 17:51:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 13:13:23.288826
- Title: Prompt Me Up: Unleashing the Power of Alignments for Multimodal Entity
and Relation Extraction
- Title(参考訳): Prompt Me Up:マルチモーダルエンティティと関係抽出のためのアライメントのパワーを解放する
- Authors: Xuming Hu, Junzhe Chen, Aiwei Liu, Shiao Meng, Lijie Wen, Philip S. Yu
- Abstract要約: 画像とテキストによるマルチモーダル抽出は、エンティティとリレーションのためのより多くの信号を取得する。
以前の作業では、NewsCLIPingなど、ラベルなしのイメージキャプチャペアの多くを見落としていた。
本稿では,エンティティオブジェクトとリレーショナルイメージアライメントのための革新的な事前学習目標を提案する。
- 参考スコア(独自算出の注目度): 58.40066745398975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How can we better extract entities and relations from text? Using multimodal
extraction with images and text obtains more signals for entities and
relations, and aligns them through graphs or hierarchical fusion, aiding in
extraction. Despite attempts at various fusions, previous works have overlooked
many unlabeled image-caption pairs, such as NewsCLIPing. This paper proposes
innovative pre-training objectives for entity-object and relation-image
alignment, extracting objects from images and aligning them with entity and
relation prompts for soft pseudo-labels. These labels are used as
self-supervised signals for pre-training, enhancing the ability to extract
entities and relations. Experiments on three datasets show an average 3.41% F1
improvement over prior SOTA. Additionally, our method is orthogonal to previous
multimodal fusions, and using it on prior SOTA fusions further improves 5.47%
F1.
- Abstract(参考訳): テキストからエンティティや関係をどう抽出するか?
画像とテキストでマルチモーダル抽出を使用することで、エンティティや関係に関するより多くの信号を取得し、グラフや階層的融合を通じてそれらを整列させ、抽出を支援する。
様々な融合の試みにもかかわらず、以前の研究はNewsCLIPingのようなラベルのないイメージキャプチャーペアの多くを見落としていた。
本稿では,画像からオブジェクトを抽出し,ソフト擬似ラベルのエンティティおよび関係プロンプトにアライメントすることにより,エンティティオブジェクトとリレーショナルイメージアライメントのための革新的な事前学習目標を提案する。
これらのラベルは、事前学習のための自己教師付き信号として使われ、実体や関係を抽出する能力を高める。
3つのデータセットの実験では、以前のSOTAよりも平均3.41%のF1が改善されている。
さらに, 従来の多モード核融合と直交し, 従来のSOTA核融合に使用すると, さらに5.47% F1が向上する。
関連論文リスト
- MUSE: Integrating Multi-Knowledge for Knowledge Graph Completion [0.0]
知識グラフ補完(KGC)は、欠落した(リレーション)部分(ヘッドエンティティ)--(リレーション]->(テールエンティティ)三重項を予測することを目的としている。
既存のKGCメソッドのほとんどは、単一の特徴(例えば、関係型)やサブグラフアグリゲーションに焦点を当てている。
本稿では,知識認識型推論モデル(MUSE)を提案する。
論文 参考訳(メタデータ) (2024-09-26T04:48:20Z) - A Semantic-Aware and Multi-Guided Network for Infrared-Visible Image Fusion [41.34335755315773]
マルチモダリティ画像融合は、2つのソース画像から特定のモダリティ情報と共有モダリティ情報を融合することを目的としている。
本稿では,3分岐エンコーダデコーダアーキテクチャと,それに対応する融合層を融合戦略として提案する。
可視・近赤外画像融合および医用画像融合タスクにおける最先端手法と比較して,本手法は競争力のある結果を得た。
論文 参考訳(メタデータ) (2024-06-11T09:32:40Z) - Mutually Guided Few-shot Learning for Relational Triple Extraction [10.539566491939844]
三重抽出(MG-FTE)のための相互指導型Few-shot学習フレームワーク
本手法は,関係を分類するエンティティ誘導型リレーショナルデコーダと,エンティティを抽出するプロトデコーダとから構成される。
FewRel 1.0(単一ドメイン)では12.6F1スコア、FewRel 2.0(クロスドメイン)では20.5F1スコアで、多くの最先端手法よりも優れています。
論文 参考訳(メタデータ) (2023-06-23T06:15:54Z) - PV2TEA: Patching Visual Modality to Textual-Established Information
Extraction [59.76117533540496]
我々は、その視覚的モダリティをテキスト化された属性情報抽出器にパッチする。
PV2TEAは3つのバイアス低減方式を備えたエンコーダデコーダアーキテクチャである。
実世界のeコマースデータセットに関する実証的な結果は、絶対値11.74%(相対値20.97%)のF1の増加を示す。
論文 参考訳(メタデータ) (2023-06-01T05:39:45Z) - Learnable Pillar-based Re-ranking for Image-Text Retrieval [119.9979224297237]
画像テキスト検索は、モダリティギャップを埋め、意味的類似性に基づいてモダリティコンテンツを検索することを目的としている。
一般的なポストプロセッシング手法であるリグレードは, 単一モダリティ検索タスクにおいて, 隣り合う関係を捕捉する優位性を明らかにしている。
本稿では,画像テキスト検索のための新しい学習可能な柱型リグレードパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-25T04:33:27Z) - SpanRE: Entities and Overlapping Relations Extraction Based on Spans and
Entity Attention [6.096612743012841]
文から抽出されたトリプレットは、相互に重複する可能性がある。
以前の方法は重複する問題に対処しなかったり、重複する問題を部分的に解決した。
対象と関係を同時に抽出するラベル付きスパン機構を提案する。
論文 参考訳(メタデータ) (2023-04-06T07:19:39Z) - Good Visual Guidance Makes A Better Extractor: Hierarchical Visual
Prefix for Multimodal Entity and Relation Extraction [88.6585431949086]
本稿では,視覚的な実体と関係抽出のための階層型ビジュアルプレフィックス融合NeTwork(HVPNeT)を提案する。
視覚的表現をプラグ可能な視覚的接頭辞とみなして, 誤りに敏感な予測決定のためのテキスト的表現を導出する。
3つのベンチマークデータセットの実験により,本手法の有効性が実証され,最先端の性能が得られた。
論文 参考訳(メタデータ) (2022-05-07T02:10:55Z) - MORE: Multi-Order RElation Mining for Dense Captioning in 3D Scenes [89.75025195440287]
既存の手法では、対象の特徴学習の副産物のような関係を、特にそれを符号化することなく扱うことができる。
より記述的で包括的なキャプションを生成するためのマルチオーダーリレーションマイニングモデルMOREを提案する。
我々のMOREは、複雑な関係を限られた数の基本関係から導出できるため、進行的にオブジェクト関係を符号化する。
論文 参考訳(メタデータ) (2022-03-10T07:26:15Z) - Graph Attention Transformer Network for Multi-Label Image Classification [50.0297353509294]
複雑なラベル間関係を効果的にマイニングできる多ラベル画像分類のための一般的なフレームワークを提案する。
提案手法は3つのデータセット上で最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2022-03-08T12:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。