Fugu-MT 論文翻訳(概要): Variational Multi-Modal Hypergraph Attention Network for Multi-Modal Relation Extraction

論文の概要: Variational Multi-Modal Hypergraph Attention Network for Multi-Modal Relation Extraction

arxiv url: http://arxiv.org/abs/2404.12006v1
Date: Thu, 18 Apr 2024 08:56:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-19 12:51:17.638691
Title: Variational Multi-Modal Hypergraph Attention Network for Multi-Modal Relation Extraction
Title（参考訳）: 多モード関係抽出のための変分多モードハイパーグラフアテンションネットワーク
Authors: Qian Li, Cheng Ji, Shu Guo, Yong Zhao, Qianren Mao, Shangguang Wang, Yuntao Wei, Jianxin Li,
Abstract要約: マルチモーダル関係抽出のための変分マルチモーダルハイパーグラフアテンションネットワーク(VM-HAN)を提案する。 VM-HANは、マルチモーダル関係抽出タスクにおける最先端のパフォーマンスを達成し、精度と効率の点で既存の手法より優れている。
参考スコア（独自算出の注目度）: 16.475718456640784
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-modal relation extraction (MMRE) is a challenging task that aims to identify relations between entities in text leveraging image information. Existing methods are limited by their neglect of the multiple entity pairs in one sentence sharing very similar contextual information (ie, the same text and image), resulting in increased difficulty in the MMRE task. To address this limitation, we propose the Variational Multi-Modal Hypergraph Attention Network (VM-HAN) for multi-modal relation extraction. Specifically, we first construct a multi-modal hypergraph for each sentence with the corresponding image, to establish different high-order intra-/inter-modal correlations for different entity pairs in each sentence. We further design the Variational Hypergraph Attention Networks (V-HAN) to obtain representational diversity among different entity pairs using Gaussian distribution and learn a better hypergraph structure via variational attention. VM-HAN achieves state-of-the-art performance on the multi-modal relation extraction task, outperforming existing methods in terms of accuracy and efficiency.
Abstract（参考訳）: マルチモーダル関係抽出(MMRE)は,画像情報を利用したテキスト中のエンティティ間の関係の同定を目的とした課題である。既存の方法は、複数のエンティティペアを1つの文で無視することによって制限され(つまり、同じテキストと画像)、MMREタスクの難しさが増大する。この制限に対処するため,マルチモーダル関係抽出のための変分多モードハイパーグラフ注意ネットワーク(VM-HAN)を提案する。具体的には、まず、各文に対して対応する画像を持つマルチモーダルハイパーグラフを構築し、各文の異なるエンティティペアに対して、高階内/インターモーダルな相関関係を確立する。さらに、変分ハイパーグラフ注意ネットワーク(V-HAN)を設計し、ガウス分布を用いて異なる実体対間の表現多様性を求め、変分注意によるより良いハイパーグラフ構造を学習する。 VM-HANは、マルチモーダル関係抽出タスクにおける最先端のパフォーマンスを達成し、精度と効率の点で既存の手法より優れている。

関連論文リスト

FuseLIP: Multimodal Embeddings via Early Fusion of Discrete Tokens [56.752362642658504]
マルチモーダル埋め込みの代替アーキテクチャであるFuseLIPを提案する。本稿では,テキストと画像トークンの拡張語彙で動作する単一のトランスフォーマーモデルを提案する。本稿では,VQAやテキスト誘導画像変換検索などのマルチモーダル埋め込みタスクにおいて,FuseLIPが他の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2025-06-03T17:27:12Z)
Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
Hierarchical Multi-modal Transformer for Cross-modal Long Document Classification [74.45521856327001]
階層構造テキストと埋め込み画像で長い文書を分類する方法は、新しい問題である。本稿では,階層型マルチモーダル変換器 (HMT) を用いたクロスモーダルな文書分類手法を提案する。本稿では,マルチモーダル変換器と動的マルチスケールマルチモーダル変換器を用いて,画像特徴とセクションと文特徴の複雑な関係をモデル化する。
論文参考訳（メタデータ） (2024-07-14T07:12:25Z)
Multimodal Information Interaction for Medical Image Segmentation [24.024848382458767]
革新的マルチモーダル情報クロストランス(MicFormer)について紹介する。あるモダリティから特徴を問合せし、対応する応答を別のモダリティから取り出し、バイモーダル特徴間の効果的なコミュニケーションを容易にする。他のマルチモーダルセグメンテーション手法と比較して,本手法はそれぞれ2.83と4.23のマージンで優れていた。
論文参考訳（メタデータ） (2024-04-25T07:21:14Z)
MAP-Elites with Transverse Assessment for Multimodal Problems in Creative Domains [2.7869568828212175]
品質多様性の進化を用いたマルチモーダルな創造的タスクを扱う新しい手法を提案する。我々の貢献は、MAP-Elitesアルゴリズム、MAP-Elites with Transverse Assessment (MEliTA)のバリエーションである。 MeliTAは、アーティファクトのモダリティを分離し、エリート間のクロスポーリングを促進する。
論文参考訳（メタデータ） (2024-03-11T21:50:22Z)
MVAM: Multi-View Attention Method for Fine-grained Image-Text Matching [65.87255122130188]
画像テキストマッチングのためのMVAM(Multi-view Attention Method)を提案する。また、入力データの異なる側面に注目するよう注意を喚起する目的も取り入れている。提案手法により,異なる視点から画像やテキストをエンコードし,より重要な詳細に焦点を合わせることが可能となり,マッチング性能が向上する。
論文参考訳（メタデータ） (2024-02-27T06:11:54Z)
MMoE: Enhancing Multimodal Models with Mixtures of Multimodal Interaction Experts [92.76662894585809]
MMOE(Multimodal Mixtures of Experts)と呼ばれるマルチモーダルモデルの拡張手法を導入する。 MMoEは様々な種類のモデルに適用でき、改善できる。
論文参考訳（メタデータ） (2023-11-16T05:31:21Z)
Unified Discrete Diffusion for Simultaneous Vision-Language Generation [78.21352271140472]
本稿では,「モダリティ変換」タスクと「マルチモダリティ生成」タスクの両方を実行することができる統一型マルチモーダル生成モデルを提案する。具体的には,マルチモーダル信号の離散拡散過程を統一遷移行列を用いて統一する。提案手法は, 様々な生成タスクにおいて, 最先端のソリューションと同等に動作可能である。
論文参考訳（メタデータ） (2022-11-27T14:46:01Z)
Mitigating Modality Collapse in Multimodal VAEs via Impartial Optimization [7.4262579052708535]
この効果はマルチモーダルVAEトレーニングにおける勾配の相反の結果である,と我々は主張する。勾配が矛盾する計算グラフのサブグラフを検出する方法を示す。実験により,本フレームワークは,モジュール間の遅延空間の再構成性能,条件生成,コヒーレンスを著しく向上させることを示した。
論文参考訳（メタデータ） (2022-06-09T13:29:25Z)
Channel Exchanging Networks for Multimodal and Multitask Dense Image Prediction [125.18248926508045]
本稿では,マルチモーダル融合とマルチタスク学習の両方に適用可能な,自己適応的でパラメータフリーなチャネル交換ネットワーク(CEN)を提案する。 CENは異なるモダリティのワーク間でチャネルを動的に交換する。濃密な画像予測を応用するために、CENの有効性は4つの異なるシナリオで検証される。
論文参考訳（メタデータ） (2021-12-04T05:47:54Z)
StEP: Style-based Encoder Pre-training for Multi-modal Image Synthesis [68.3787368024951]
マルチモーダルイメージ・ツー・イメージ(I2I)翻訳のための新しいアプローチを提案する。我々は、出力領域の可変性をモデル化する潜伏埋め込みをジェネレータと共同で学習する。具体的には、新しいプロキシタスクを用いて汎用的なスタイルエンコーダを事前訓練し、任意のドメインから低次元のスタイル潜在空間への画像の埋め込みを学習する。
論文参考訳（メタデータ） (2021-04-14T19:58:24Z)
RpBERT: A Text-image Relation Propagation-based BERT Model for Multimodal NER [4.510210055307459]
マルチモーダルなエンティティ認識(MNER)は、ツイート中のNERの精度を向上させるために画像を利用している。マルチモーダルBERTモデルにテキスト-画像関係の伝搬法を導入する。 MNERデータセットをトレーニングするためのマルチタスクアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-02-05T02:45:30Z)
A Novel Graph-based Multi-modal Fusion Encoder for Neural Machine Translation [131.33610549540043]
NMTのための新しいグラフベースのマルチモーダル核融合エンコーダを提案する。まず、統合マルチモーダルグラフを用いて、入力文と画像を表す。次に、複数のグラフベースのマルチモーダル融合層を積み重ねて、ノード表現を学習するためのセマンティックな相互作用を反復的に実行する。
論文参考訳（メタデータ） (2020-07-17T04:06:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。