論文の概要: I2SRM: Intra- and Inter-Sample Relationship Modeling for Multimodal
Information Extraction
- arxiv url: http://arxiv.org/abs/2310.06326v1
- Date: Tue, 10 Oct 2023 05:50:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 20:34:55.582346
- Title: I2SRM: Intra- and Inter-Sample Relationship Modeling for Multimodal
Information Extraction
- Title(参考訳): i2srm:マルチモーダル情報抽出のためのサンプル間関係モデリング
- Authors: Yusheng Huang, Zhouhan Lin
- Abstract要約: 本稿では,本課題に対するサンプル内およびサンプル間関係モデリング(I2SRM)手法を提案する。
提案手法は,Twitter-2015で77.12%のF1スコア,Twitter-2017で88.40%のF1スコア,MNREで84.12%のF1スコアと競合する結果を得た。
- 参考スコア(独自算出の注目度): 10.684005956288347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal information extraction is attracting research attention nowadays,
which requires aggregating representations from different modalities. In this
paper, we present the Intra- and Inter-Sample Relationship Modeling (I2SRM)
method for this task, which contains two modules. Firstly, the intra-sample
relationship modeling module operates on a single sample and aims to learn
effective representations. Embeddings from textual and visual modalities are
shifted to bridge the modality gap caused by distinct pre-trained language and
image models. Secondly, the inter-sample relationship modeling module considers
relationships among multiple samples and focuses on capturing the interactions.
An AttnMixup strategy is proposed, which not only enables collaboration among
samples but also augments data to improve generalization. We conduct extensive
experiments on the multimodal named entity recognition datasets Twitter-2015
and Twitter-2017, and the multimodal relation extraction dataset MNRE. Our
proposed method I2SRM achieves competitive results, 77.12% F1-score on
Twitter-2015, 88.40% F1-score on Twitter-2017, and 84.12% F1-score on MNRE.
- Abstract(参考訳): マルチモーダル情報抽出は近年,様々なモダリティから表現を集約する必要がある研究の注目を集めている。
本稿では,2つのモジュールを含むタスクに対して,i2srm(intra- and-sample relationship modeling)法を提案する。
まず、サンプル内関係モデリングモジュールが単一のサンプル上で動作し、効果的な表現の学習を目指す。
テキストおよび視覚的モダリティからの埋め込みは、異なる事前学習言語と画像モデルによるモダリティギャップを橋渡しするためにシフトされる。
第2に、サンプル間の関係モデリングモジュールは、複数のサンプル間の関係を考慮し、相互作用のキャプチャに焦点を当てる。
AttnMixup戦略が提案され、サンプル間の協調を可能にするだけでなく、データの拡張により一般化が向上する。
我々はTwitter-2015とTwitter-2017のマルチモーダルなエンティティ認識データセットとマルチモーダルな関係抽出データセットMNREについて広範な実験を行った。
提案手法は,Twitter-2015で77.12%のF1スコア,Twitter-2017で88.40%のF1スコア,MNREで84.12%のF1スコアと競合する結果を得た。
関連論文リスト
- DHRNet: A Dual-Path Hierarchical Relation Network for Multi-Person Pose Estimation [14.267849773487834]
マルチパーソンポーズ推定(MPPE)は、コンピュータビジョンにおいて非常に重要な課題である。
本稿では,Dual-path Hierarchical Relation Network (DHRNet) と呼ばれるCNNベースの新しい単一ステージ手法を提案する。
論文 参考訳(メタデータ) (2024-04-22T09:41:03Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - Align and Attend: Multimodal Summarization with Dual Contrastive Losses [57.83012574678091]
マルチモーダル要約の目標は、異なるモーダルから最も重要な情報を抽出し、出力要約を形成することである。
既存の手法では、異なるモダリティ間の時間的対応の活用に失敗し、異なるサンプル間の本質的な相関を無視する。
A2Summ(Align and Attend Multimodal Summarization)は、マルチモーダル入力を効果的に整列し、参加できる統一型マルチモーダルトランスフォーマーモデルである。
論文 参考訳(メタデータ) (2023-03-13T17:01:42Z) - Hierarchical Cross-Modality Semantic Correlation Learning Model for
Multimodal Summarization [4.714335699701277]
マルチモーダル出力(MSMO)によるマルチモーダル要約は、テキストコンテンツとビジュアルコンテンツの両方で要約を生成する。
従来のMSMOメソッドは、データ全体の表現を学習することで、異なるデータモダリティを区別できない方法で処理する。
マルチモーダルデータに存在するモーダル内およびモーダル間相関を学習するための階層的相互モーダル意味相関学習モデル(HCSCL)を提案する。
論文 参考訳(メタデータ) (2021-12-16T01:46:30Z) - Abstractive Sentence Summarization with Guidance of Selective Multimodal
Reference [3.505062507621494]
モーダル間の相互関係を考慮したマルチモーダル階層選択変換器(mhsf)モデルを提案する。
提案したmhsfモデルの汎用性を,事前学習+微調整および新鮮トレーニング戦略を用いて評価した。
論文 参考訳(メタデータ) (2021-08-11T09:59:34Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Learning Multimodal VAEs through Mutual Supervision [72.77685889312889]
MEMEは、相互監督を通じて暗黙的にモダリティ間の情報を結合する。
我々は、MEMEが、部分的および完全観察スキームの双方で標準メトリクスのベースラインを上回ることを実証する。
論文 参考訳(メタデータ) (2021-06-23T17:54:35Z) - Self-Supervised Multimodal Domino: in Search of Biomarkers for
Alzheimer's Disease [19.86082635340699]
自己監督型表現学習アルゴリズムを編成する合理的な方法の分類法を提案する。
まず,おもちゃのマルチモーダルMNISTデータセットのモデルを評価し,アルツハイマー病患者を用いたマルチモーダル・ニューロイメージングデータセットに適用した。
提案手法は,従来の自己教師付きエンコーダデコーダ法よりも優れていた。
論文 参考訳(メタデータ) (2020-12-25T20:28:13Z) - Relating by Contrasting: A Data-efficient Framework for Multimodal
Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。
提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文 参考訳(メタデータ) (2020-07-02T15:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。