論文の概要: Enhancing Multimodal Entity and Relation Extraction with Variational
Information Bottleneck
- arxiv url: http://arxiv.org/abs/2304.02328v1
- Date: Wed, 5 Apr 2023 09:32:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 12:51:26.671541
- Title: Enhancing Multimodal Entity and Relation Extraction with Variational
Information Bottleneck
- Title(参考訳): 変動情報を用いたマルチモーダルエンティティの強化と関係抽出
- Authors: Shiyao Cui, Jiangxia Cao, Xin Cong, Jiawei Sheng, Quangang Li, Tingwen
Liu, Jinqiao Shi
- Abstract要約: マルチモーダルなエンティティ認識(MNER)とマルチモーダルな関係抽出(MRE)について検討する。
MNERとMREの中核は、テキストセマンティクスを強化するために明らかな視覚情報を統合することである。
MMIB(Information Bottleneck)を用いたマルチモーダル表現学習によるMNERとMREの新しい手法を提案する。
- 参考スコア(独自算出の注目度): 12.957002659910456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies the multimodal named entity recognition (MNER) and
multimodal relation extraction (MRE), which are important for multimedia social
platform analysis. The core of MNER and MRE lies in incorporating evident
visual information to enhance textual semantics, where two issues inherently
demand investigations. The first issue is modality-noise, where the
task-irrelevant information in each modality may be noises misleading the task
prediction. The second issue is modality-gap, where representations from
different modalities are inconsistent, preventing from building the semantic
alignment between the text and image. To address these issues, we propose a
novel method for MNER and MRE by Multi-Modal representation learning with
Information Bottleneck (MMIB). For the first issue, a refinement-regularizer
probes the information-bottleneck principle to balance the predictive evidence
and noisy information, yielding expressive representations for prediction. For
the second issue, an alignment-regularizer is proposed, where a mutual
information-based item works in a contrastive manner to regularize the
consistent text-image representations. To our best knowledge, we are the first
to explore variational IB estimation for MNER and MRE. Experiments show that
MMIB achieves the state-of-the-art performances on three public benchmarks.
- Abstract(参考訳): 本稿では,マルチメディアソーシャルプラットフォーム分析において重要なマルチモーダルなエンティティ認識(MNER)とマルチモーダルな関係抽出(MRE)について検討する。
MNERとMREの中核は、明らかな視覚情報を組み込んでテキスト意味論を強化することである。
最初の問題はモーダリティノイズであり、各モーダリティにおけるタスク非関連情報は、タスク予測を誤解させるノイズである可能性がある。
第2の問題はモダリティギャップ(Modality-gap)であり、異なるモダリティの表現が矛盾し、テキストと画像間のセマンティックアライメントを構築するのを防ぐ。
これらの課題に対処するために,MMIB(Information Bottleneck)を用いたマルチモーダル表現学習によるMNERとMREの新しい手法を提案する。
まず,リファインメント・レギュラライザは,予測証拠と雑音情報とのバランスをとるために情報ボトルネック原理を探索し,予測のための表現表現を与える。
第2の課題として、相互情報に基づく項目が対比的に動作し、一貫したテキスト画像表現を規則化するアライメントレギュラライザを提案する。
最善の知識として、我々はmnerとmreの変分ib推定を初めて調査した。
実験により、MMIBは3つの公開ベンチマークで最先端のパフォーマンスを達成することが示された。
関連論文リスト
- What Do VLMs NOTICE? A Mechanistic Interpretability Pipeline for Gaussian-Noise-free Text-Image Corruption and Evaluation [16.033361754660316]
視覚言語モデル(VLM)における可読性評価パイプライン
SVO-Probes、MIT-States、Facial Expression Recognitionデータセットに関する実験により、VLM意思決定における重要な洞察が明らかになった。
この研究は、より透明で解釈可能なマルチモーダルシステムへの道を開いた。
論文 参考訳(メタデータ) (2024-06-24T05:13:19Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Integrating Large Pre-trained Models into Multimodal Named Entity
Recognition with Evidential Fusion [31.234455370113075]
本稿では,MNERタスクに不確実性推定を取り入れ,信頼に値する予測を生成することを提案する。
提案アルゴリズムは,各モードの分布を正規逆ガンマ分布としてモデル化し,それらを統一分布に融合する。
2つのデータセットの実験により,提案手法がベースラインを上回り,新しい最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2023-06-29T14:50:23Z) - Multimodal Relation Extraction with Cross-Modal Retrieval and Synthesis [89.04041100520881]
本研究は,対象物,文,画像全体に基づいて,テキストおよび視覚的証拠を検索することを提案する。
我々は,オブジェクトレベル,画像レベル,文レベル情報を合成し,同一性と異なるモダリティ間の推論を改善する新しい手法を開発した。
論文 参考訳(メタデータ) (2023-05-25T15:26:13Z) - Information Screening whilst Exploiting! Multimodal Relation Extraction
with Feature Denoising and Multimodal Topic Modeling [96.75821232222201]
既存のマルチモーダル関係抽出(MRE)研究は、内部情報過剰利用と外部情報過多という2つの共存課題に直面している。
内部情報スクリーニングと外部情報活用を同時に実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:57Z) - Hierarchical Aligned Multimodal Learning for NER on Tweet Posts [12.632808712127291]
マルチモーダルなエンティティ認識(MNER)が注目されている。
画像とテキストのシーケンスを動的に調整する新しい手法を提案する。
2つのオープンデータセットで実験を行い、その結果と詳細な分析により、我々のモデルの利点を実証した。
論文 参考訳(メタデータ) (2023-05-15T06:14:36Z) - VERITE: A Robust Benchmark for Multimodal Misinformation Detection
Accounting for Unimodal Bias [17.107961913114778]
マルチモーダルの誤報は ソーシャルメディアのプラットフォームで 増え続けている問題です
本研究では,広範に使用されているMDDベンチマークにおいて,一様偏差の存在を調査・同定する。
リアルな合成学習データを生成するための新しい手法であるCrossmodal HArd Synthetic MisAlignment (CHASMA)を導入する。
論文 参考訳(メタデータ) (2023-04-27T12:28:29Z) - Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。
新たなマルチモーダル検索フレームワーク(MoRe)を提案する。
MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文 参考訳(メタデータ) (2022-12-03T13:11:32Z) - Variational Distillation for Multi-View Learning [104.17551354374821]
我々は,多視点表現学習における2つの重要な特徴を利用するために,様々な情報ボトルネックを設計する。
厳密な理論的保証の下で,本手法は,観察とセマンティックラベルの内在的相関の把握を可能にする。
論文 参考訳(メタデータ) (2022-06-20T03:09:46Z) - Multi-Modal Mutual Information Maximization: A Novel Approach for
Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。
モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。
提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2021-12-13T08:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。