論文の概要: Good Visual Guidance Makes A Better Extractor: Hierarchical Visual
Prefix for Multimodal Entity and Relation Extraction
- arxiv url: http://arxiv.org/abs/2205.03521v1
- Date: Sat, 7 May 2022 02:10:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-10 13:52:24.043157
- Title: Good Visual Guidance Makes A Better Extractor: Hierarchical Visual
Prefix for Multimodal Entity and Relation Extraction
- Title(参考訳): 良質な視覚指導はより良い抽出器を作る: 階層的視覚プレフィックスによるマルチモーダルエンティティと関係抽出
- Authors: Xiang Chen, Ningyu Zhang, Lei Li, Yunzhi Yao, Shumin Deng, Chuanqi
Tan, Fei Huang, Luo Si, Huajun Chen
- Abstract要約: 本稿では,視覚的な実体と関係抽出のための階層型ビジュアルプレフィックス融合NeTwork(HVPNeT)を提案する。
視覚的表現をプラグ可能な視覚的接頭辞とみなして, 誤りに敏感な予測決定のためのテキスト的表現を導出する。
3つのベンチマークデータセットの実験により,本手法の有効性が実証され,最先端の性能が得られた。
- 参考スコア(独自算出の注目度): 88.6585431949086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal named entity recognition and relation extraction (MNER and MRE) is
a fundamental and crucial branch in information extraction. However, existing
approaches for MNER and MRE usually suffer from error sensitivity when
irrelevant object images incorporated in texts. To deal with these issues, we
propose a novel Hierarchical Visual Prefix fusion NeTwork (HVPNeT) for
visual-enhanced entity and relation extraction, aiming to achieve more
effective and robust performance. Specifically, we regard visual representation
as pluggable visual prefix to guide the textual representation for error
insensitive forecasting decision. We further propose a dynamic gated
aggregation strategy to achieve hierarchical multi-scaled visual features as
visual prefix for fusion. Extensive experiments on three benchmark datasets
demonstrate the effectiveness of our method, and achieve state-of-the-art
performance. Code is available in https://github.com/zjunlp/HVPNeT.
- Abstract(参考訳): mnerとmre(multimodal named entity recognition and relation extraction)は、情報抽出における基本かつ重要な分野である。
しかし、既存のmnerとmreのアプローチは、テキストに組み込まれた無関係なオブジェクトイメージのエラー感度に苦しむ。
これらの問題に対処するために,より効果的でロバストな性能を実現するために,ビジュアルエンハンスエンティティと関係抽出のための階層型ビジュアルプレフィックス融合ネットワーク(hvpnet)を提案する。
具体的には,視覚的表現をプラグ可能な視覚的接頭辞とみなして,テキスト表現を誤りに敏感な予測決定に導く。
さらに,融合の視覚的接頭辞として階層的な多スケール視覚特徴を実現するための動的ゲートアグリゲーション戦略を提案する。
3つのベンチマークデータセットの大規模な実験により,本手法の有効性が実証され,最先端の性能が得られた。
コードはhttps://github.com/zjunlp/HVPNeTで入手できる。
関連論文リスト
- SimVG: A Simple Framework for Visual Grounding with Decoupled Multi-modal Fusion [20.016192628108158]
視覚的接地は、画像の対応する領域に記述文を接地する、一般的な視覚課題である。
既存のほとんどの手法では、独立した画像テキストエンコーディングを使用し、複雑な手作りモジュールやエンコーダ・デコーダアーキテクチャを用いてモーダルインタラクションやクエリ推論を行っている。
これは、前者のパラダイムがマルチモーダルな特徴融合に適合するために、限られた下流データのみを使用するためである。
本稿では,ビジュアルグラウンドティングのためのシンプルだが頑健なトランスフォーマーベースのフレームワーク,SimVGを提案する。
論文 参考訳(メタデータ) (2024-09-26T04:36:19Z) - Vision-Enhanced Semantic Entity Recognition in Document Images via
Visually-Asymmetric Consistency Learning [19.28860833813788]
既存のモデルでは、視覚的エンコーダを弱いモード間監視信号で訓練することが一般的である。
そこで本稿では,textbfVisually-textbfAsymmetric cotextbfNsistentextbfCy textbfLearning (textscVancl) アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-23T10:37:22Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Dual-Gated Fusion with Prefix-Tuning for Multi-Modal Relation Extraction [13.454953507205278]
マルチモーダル関係抽出は、視覚的手がかりを含むテキスト中の2つの実体間の関係を特定することを目的としている。
本稿では,テキスト,エンティティペア,画像/オブジェクトのより深い相関関係をよりよく捉えるための新しいMMREフレームワークを提案する。
本手法は, 少数の状況においても, 強力な競合相手と比較して優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-06-19T15:31:34Z) - Information Screening whilst Exploiting! Multimodal Relation Extraction
with Feature Denoising and Multimodal Topic Modeling [96.75821232222201]
既存のマルチモーダル関係抽出(MRE)研究は、内部情報過剰利用と外部情報過多という2つの共存課題に直面している。
内部情報スクリーニングと外部情報活用を同時に実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:57Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - On Analyzing the Role of Image for Visual-enhanced Relation Extraction [36.84650189600189]
本稿では,視覚的シーングラフにおける不正確な情報が,モーダルアライメントの重みを低下させることを示す,詳細な実験分析を行う。
マルチモーダル関係抽出のためのTransformerに基づく暗黙的な微細なマルチモーダルアライメントを持つ強いベースラインを提案する。
論文 参考訳(メタデータ) (2022-11-14T16:39:24Z) - Bear the Query in Mind: Visual Grounding with Query-conditioned
Convolution [26.523051615516742]
本稿では,クエリ情報を畳み込みカーネルの生成に組み込むことで,クエリ対応の視覚的特徴を抽出するクエリ条件付き畳み込みモジュール(QCM)を提案する。
提案手法は,3つの一般的な視覚的グラウンドデータセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-06-18T04:26:39Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z) - Language and Visual Entity Relationship Graph for Agent Navigation [54.059606864535304]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従って現実世界の環境をナビゲートする必要がある。
テキストと視覚間のモーダル関係をモデル化するための新しい言語とビジュアルエンティティ関係グラフを提案する。
実験によって、私たちは最先端技術よりも改善できる関係を利用しています。
論文 参考訳(メタデータ) (2020-10-19T08:25:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。