論文の概要: Multimodal Relational Triple Extraction with Query-based Entity Object Transformer
- arxiv url: http://arxiv.org/abs/2408.08709v1
- Date: Fri, 16 Aug 2024 12:43:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 17:51:48.895649
- Title: Multimodal Relational Triple Extraction with Query-based Entity Object Transformer
- Title(参考訳): クエリベースのEntity Object Transformerを用いたマルチモーダルリレーショナルトリプル抽出
- Authors: Lei Hei, Ning An, Tingjing Liao, Qi Ma, Jiaqi Wang, Feiliang Ren,
- Abstract要約: マルチモーダル関係抽出は、柔軟で現実的な知識の構築に不可欠である。
画像・テキスト・ペアから全三重項(エンタリティ,関係,オブジェクト領域)を抽出することを目的としたマルチモーダル・エンティティ・オブジェクト・トリプル抽出を提案する。
また,テキスト情報と視覚情報の相互作用と融合を動的に探索するクエリベースモデルQEOTを提案する。
- 参考スコア(独自算出の注目度): 20.97497765985682
- License:
- Abstract: Multimodal Relation Extraction is crucial for constructing flexible and realistic knowledge graphs. Recent studies focus on extracting the relation type with entity pairs present in different modalities, such as one entity in the text and another in the image. However, existing approaches require entities and objects given beforehand, which is costly and impractical. To address the limitation, we propose a novel task, Multimodal Entity-Object Relational Triple Extraction, which aims to extract all triples (entity span, relation, object region) from image-text pairs. To facilitate this study, we modified a multimodal relation extraction dataset MORE, which includes 21 relation types, to create a new dataset containing 20,264 triples, averaging 5.75 triples per image-text pair. Moreover, we propose QEOT, a query-based model with a selective attention mechanism, to dynamically explore the interaction and fusion of textual and visual information. In particular, the proposed method can simultaneously accomplish entity extraction, relation classification, and object detection with a set of queries. Our method is suitable for downstream applications and reduces error accumulation due to the pipeline-style approaches. Extensive experimental results demonstrate that our proposed method outperforms the existing baselines by 8.06% and achieves state-of-the-art performance.
- Abstract(参考訳): マルチモーダル関係抽出は, フレキシブルかつ現実的な知識グラフの構築に不可欠である。
近年の研究では、テキスト内の1つのエンティティや画像内の別のエンティティなど、異なるモダリティに存在するエンティティペアとの関係型を抽出することに焦点が当てられている。
しかし、既存のアプローチでは事前に与えられたエンティティやオブジェクトが必要です。
この制限に対処するために,画像とテキストのペアからすべての三重項(エンタリティスパン,リレーショナル,オブジェクト領域)を抽出することを目的とした,新しいタスクであるMultimodal Entity-Object Relational Triple extractを提案する。
本研究では,21種類の関係型を含むマルチモーダル関係抽出データセットMOREを改良し,20,264個の3重項を含む新しいデータセットを作成し,画像テキストペアあたり平均5.75個の3重項を生成する。
さらに,テキスト情報と視覚情報の相互作用と融合を動的に探索するクエリベースモデルQEOTを提案する。
特に,提案手法は,一組のクエリを用いて,エンティティ抽出,関係分類,オブジェクト検出を同時に行うことができる。
本手法は下流アプリケーションに適した手法であり,パイプライン方式のアプローチによるエラーの蓄積を低減する。
実験の結果,提案手法は既存のベースラインを8.06%上回り,最先端性能を実現していることがわかった。
関連論文リスト
- Scene-Graph ViT: End-to-End Open-Vocabulary Visual Relationship Detection [14.22646492640906]
オープン語彙の視覚的関係検出のための単純かつ高効率なデコーダレスアーキテクチャを提案する。
我々のモデルはTransformerベースの画像エンコーダで、オブジェクトをトークンとして表現し、それらの関係を暗黙的にモデル化する。
提案手法は,ビジュアルゲノムおよび大語彙GQAベンチマーク上で,リアルタイムな推論速度で,最先端の関係検出性能を実現する。
論文 参考訳(メタデータ) (2024-03-21T10:15:57Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Dual-Gated Fusion with Prefix-Tuning for Multi-Modal Relation Extraction [13.454953507205278]
マルチモーダル関係抽出は、視覚的手がかりを含むテキスト中の2つの実体間の関係を特定することを目的としている。
本稿では,テキスト,エンティティペア,画像/オブジェクトのより深い相関関係をよりよく捉えるための新しいMMREフレームワークを提案する。
本手法は, 少数の状況においても, 強力な競合相手と比較して優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-06-19T15:31:34Z) - Multimodal Relation Extraction with Cross-Modal Retrieval and Synthesis [89.04041100520881]
本研究は,対象物,文,画像全体に基づいて,テキストおよび視覚的証拠を検索することを提案する。
我々は,オブジェクトレベル,画像レベル,文レベル情報を合成し,同一性と異なるモダリティ間の推論を改善する新しい手法を開発した。
論文 参考訳(メタデータ) (2023-05-25T15:26:13Z) - Learnable Pillar-based Re-ranking for Image-Text Retrieval [119.9979224297237]
画像テキスト検索は、モダリティギャップを埋め、意味的類似性に基づいてモダリティコンテンツを検索することを目的としている。
一般的なポストプロセッシング手法であるリグレードは, 単一モダリティ検索タスクにおいて, 隣り合う関係を捕捉する優位性を明らかにしている。
本稿では,画像テキスト検索のための新しい学習可能な柱型リグレードパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-25T04:33:27Z) - ReSel: N-ary Relation Extraction from Scientific Text and Tables by
Learning to Retrieve and Select [53.071352033539526]
学術論文からN-ary関係を抽出する問題について考察する。
提案手法であるReSelは,このタスクを2段階のプロシージャに分解する。
3つの科学的情報抽出データセットに対する実験により、ReSelは最先端のベースラインを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-10-26T02:28:02Z) - Good Visual Guidance Makes A Better Extractor: Hierarchical Visual
Prefix for Multimodal Entity and Relation Extraction [88.6585431949086]
本稿では,視覚的な実体と関係抽出のための階層型ビジュアルプレフィックス融合NeTwork(HVPNeT)を提案する。
視覚的表現をプラグ可能な視覚的接頭辞とみなして, 誤りに敏感な予測決定のためのテキスト的表現を導出する。
3つのベンチマークデータセットの実験により,本手法の有効性が実証され,最先端の性能が得られた。
論文 参考訳(メタデータ) (2022-05-07T02:10:55Z) - A Masked Image Reconstruction Network for Document-level Relation
Extraction [3.276435438007766]
文書レベルの関係抽出は、複雑な3重関係を抽出するために複数の文に対する推論を必要とする。
マスク付き画像再構成ネットワーク(DRE-MIR)に基づく文書レベルの関係抽出モデルを提案する。
我々は,3つの公開文書レベルの関係抽出データセットについて,そのモデルを評価する。
論文 参考訳(メタデータ) (2022-04-21T02:41:21Z) - Bridging Text and Knowledge with Multi-Prototype Embedding for Few-Shot
Relational Triple Extraction [40.00702385889112]
本稿では,関係三重項の合成を共同で抽出する,新しいマルチプロトタイプ埋め込みネットワークモデルを提案する。
我々は、エンティティとリレーションの両方に関するテキストと知識を橋渡しするハイブリッド学習機構を設計する。
実験により, 提案手法は, 数発トリプル抽出の性能を向上させることができることを示した。
論文 参考訳(メタデータ) (2020-10-30T04:18:39Z) - HittER: Hierarchical Transformers for Knowledge Graph Embeddings [85.93509934018499]
複雑な知識グラフにおける実体と関係の表現を学習するためにHittを提案する。
実験結果から,Hittは複数リンク予測において最先端の新たな結果が得られることがわかった。
さらに,HittをBERTに統合する簡単なアプローチを提案し,その効果を2つのFreebaseファクトイド対応データセットで示す。
論文 参考訳(メタデータ) (2020-08-28T18:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。