論文の概要: Few-Shot Relation Extraction with Hybrid Visual Evidence
- arxiv url: http://arxiv.org/abs/2403.00724v1
- Date: Fri, 1 Mar 2024 18:20:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 16:35:57.267480
- Title: Few-Shot Relation Extraction with Hybrid Visual Evidence
- Title(参考訳): ハイブリッドビジュアルエビデンスを用いたFew-Shot関係抽出
- Authors: Jiaying Gong and Hoda Eldardiry
- Abstract要約: MFS-HVE(Multi-modal few-shot relation extract model)を提案する。
MFS-HVEは意味的特徴抽出器とマルチモーダル融合コンポーネントを含む。
2つの公開データセットで行った実験は、意味的な視覚情報が数発の関係予測の性能を大幅に改善することを示した。
- 参考スコア(独自算出の注目度): 3.154631846975021
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The goal of few-shot relation extraction is to predict relations between name
entities in a sentence when only a few labeled instances are available for
training. Existing few-shot relation extraction methods focus on uni-modal
information such as text only. This reduces performance when there are no clear
contexts between the name entities described in text. We propose a multi-modal
few-shot relation extraction model (MFS-HVE) that leverages both textual and
visual semantic information to learn a multi-modal representation jointly. The
MFS-HVE includes semantic feature extractors and multi-modal fusion components.
The MFS-HVE semantic feature extractors are developed to extract both textual
and visual features. The visual features include global image features and
local object features within the image. The MFS-HVE multi-modal fusion unit
integrates information from various modalities using image-guided attention,
object-guided attention, and hybrid feature attention to fully capture the
semantic interaction between visual regions of images and relevant texts.
Extensive experiments conducted on two public datasets demonstrate that
semantic visual information significantly improves the performance of few-shot
relation prediction.
- Abstract(参考訳): 少数ショット関係抽出の目標は、トレーニングにラベル付きインスタンスしか利用できない場合、文内の名前エンティティ間の関係を予測することである。
既存の少数ショット関係抽出手法は、テキストのみのような一様情報に重点を置いている。
これにより、テキストで記述された名前エンティティ間の明確なコンテキストがない場合、パフォーマンスが低下する。
テキストと視覚のセマンティック情報を利用してマルチモーダル表現を共同で学習するマルチモーダルスショット関係抽出モデル(MFS-HVE)を提案する。
MFS-HVEは意味的特徴抽出器と多モード融合部品を含む。
MFS-HVEセマンティック特徴抽出器はテキスト特徴と視覚特徴の両方を抽出するために開発された。
ビジュアル機能には、グローバルイメージ機能と画像内のローカルオブジェクト機能が含まれる。
MFS-HVEマルチモーダル融合ユニットは、画像誘導注意、オブジェクト誘導注意、ハイブリッド特徴注意を用いて様々なモダリティからの情報を統合し、画像の視覚領域と関連するテキスト間のセマンティックな相互作用を完全にキャプチャする。
2つの公開データセットで実施された大規模な実験は、意味的な視覚情報が数発の関係予測の性能を大幅に改善することを示した。
関連論文リスト
- Image Fusion via Vision-Language Model [94.08749718119677]
本稿では, VIsion-Language Model (FILM) による画像融合という新しい融合パラダイムを初めて紹介する。
FILMでは、入力画像を処理してセマンティックプロンプトを生成し、それをChatGPTに入力してリッチなテキスト記述を得る。
これらの記述はテキスト領域で融合され、ソース画像からの重要な視覚的特徴の抽出を相互注意を通して導く。
このパラダイムは、赤外線可視、医療、マルチ露光、マルチフォーカス画像融合の4つの画像融合タスクにおいて満足な結果を得る。
論文 参考訳(メタデータ) (2024-02-03T18:36:39Z) - A Dual-way Enhanced Framework from Text Matching Point of View for
Multimodal Entity Linking [18.742934572771677]
マルチモーダルエンティティリンク(MEL)は、ウィキペディアのような知識グラフ(KG)のエンティティに曖昧な言及を多モーダル情報にリンクすることを目的としている。
我々は、各マルチモーダル情報(テキストと画像)をクエリとして扱うニューラルテキストマッチング問題として、マルチモーダルエンティティリンクを定式化する。
本稿では,MELのための双方向拡張(DWE)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-19T03:15:50Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Dual-Gated Fusion with Prefix-Tuning for Multi-Modal Relation Extraction [13.454953507205278]
マルチモーダル関係抽出は、視覚的手がかりを含むテキスト中の2つの実体間の関係を特定することを目的としている。
本稿では,テキスト,エンティティペア,画像/オブジェクトのより深い相関関係をよりよく捉えるための新しいMMREフレームワークを提案する。
本手法は, 少数の状況においても, 強力な競合相手と比較して優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-06-19T15:31:34Z) - CISum: Learning Cross-modality Interaction to Enhance Multimodal
Semantic Coverage for Multimodal Summarization [2.461695698601437]
本稿ではマルチタスク・クロスモーダル学習フレームワーク(CISum)を提案する。
視覚的意味論を得るために,テキストの内容との相関に基づいて画像から視覚的記述へと変換する。
そして、視覚的記述とテキスト内容とを融合させてテキスト要約を生成し、マルチモーダルコンテンツのセマンティクスをキャプチャする。
論文 参考訳(メタデータ) (2023-02-20T11:57:23Z) - HGAN: Hierarchical Graph Alignment Network for Image-Text Retrieval [13.061063817876336]
画像テキスト検索のための階層型グラフアライメントネットワーク(HGAN)を提案する。
まず、包括的マルチモーダル特徴を捉えるために、画像の特徴グラフとテキストのモダリティをそれぞれ構築する。
そして、MFAR(Multi-granularity Feature Aggregation and Rearrangement)モジュールを設計した多粒性共有空間を構築する。
最後に、最終的な画像とテキストの特徴は、階層的アライメントを達成するために、3レベル類似関数によってさらに洗練される。
論文 参考訳(メタデータ) (2022-12-16T05:08:52Z) - Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。
新たなマルチモーダル検索フレームワーク(MoRe)を提案する。
MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文 参考訳(メタデータ) (2022-12-03T13:11:32Z) - Good Visual Guidance Makes A Better Extractor: Hierarchical Visual
Prefix for Multimodal Entity and Relation Extraction [88.6585431949086]
本稿では,視覚的な実体と関係抽出のための階層型ビジュアルプレフィックス融合NeTwork(HVPNeT)を提案する。
視覚的表現をプラグ可能な視覚的接頭辞とみなして, 誤りに敏感な予測決定のためのテキスト的表現を導出する。
3つのベンチマークデータセットの実験により,本手法の有効性が実証され,最先端の性能が得られた。
論文 参考訳(メタデータ) (2022-05-07T02:10:55Z) - Boosting Entity-aware Image Captioning with Multi-modal Knowledge Graph [96.95815946327079]
名前付きエンティティの長期分布により、名前付きエンティティと視覚的キューの関係を学習することは困難である。
本稿では、視覚オブジェクトと名前付きエンティティを関連付けるために、マルチモーダルな知識グラフを構築する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-07-26T05:50:41Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z) - MHSAN: Multi-Head Self-Attention Network for Visual Semantic Embedding [6.4901484665257545]
本稿では,視覚的およびテキスト的データの様々なコンポーネントを,データの重要な部分に参加することによってキャプチャする,新しいマルチヘッド自己注意ネットワークを提案する。
提案手法は,MS-COCOおよびFlicker30Kデータセット上の画像テキスト検索タスクにおける最新の結果を実現する。
論文 参考訳(メタデータ) (2020-01-11T05:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。