Fugu-MT 論文翻訳(概要): Information Screening whilst Exploiting! Multimodal Relation Extraction with Feature Denoising and Multimodal Topic Modeling

論文の概要: Information Screening whilst Exploiting! Multimodal Relation Extraction with Feature Denoising and Multimodal Topic Modeling

arxiv url: http://arxiv.org/abs/2305.11719v2
Date: Thu, 25 May 2023 04:08:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-26 19:41:22.001961
Title: Information Screening whilst Exploiting! Multimodal Relation Extraction with Feature Denoising and Multimodal Topic Modeling
Title（参考訳）: 爆発中の情報スクリーニング! 特徴Denoisingとマルチモーダルトピックモデリングによるマルチモーダル関係抽出
Authors: Shengqiong Wu, Hao Fei, Yixin Cao, Lidong Bing, Tat-Seng Chua
Abstract要約: 既存のマルチモーダル関係抽出(MRE)研究は、内部情報過剰利用と外部情報過多という2つの共存課題に直面している。内部情報スクリーニングと外部情報活用を同時に実現する新しいフレームワークを提案する。
参考スコア（独自算出の注目度）: 96.75821232222201
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Existing research on multimodal relation extraction (MRE) faces two co-existing challenges, internal-information over-utilization and external-information under-exploitation. To combat that, we propose a novel framework that simultaneously implements the idea of internal-information screening and external-information exploiting. First, we represent the fine-grained semantic structures of the input image and text with the visual and textual scene graphs, which are further fused into a unified cross-modal graph (CMG). Based on CMG, we perform structure refinement with the guidance of the graph information bottleneck principle, actively denoising the less-informative features. Next, we perform topic modeling over the input image and text, incorporating latent multimodal topic features to enrich the contexts. On the benchmark MRE dataset, our system outperforms the current best model significantly. With further in-depth analyses, we reveal the great potential of our method for the MRE task. Our codes are open at https://github.com/ChocoWu/MRE-ISE.
Abstract（参考訳）: 既存のマルチモーダル関係抽出(MRE)研究は、内部情報過剰利用と外部情報過多という2つの共存課題に直面している。そこで本研究では,内部情報スクリーニングと外部情報活用を同時に実現する新しい枠組みを提案する。まず、入力画像とテキストの微細な意味構造を視覚的およびテキスト的シーングラフで表現し、さらに統合されたクロスモーダルグラフ(CMG)に融合する。 cmgに基づき,グラフ情報ボトルネックの原理を導いて構造改善を行い,非表現的特徴を積極的に記述する。次に、入力画像とテキスト上でトピックモデリングを行い、潜在マルチモーダルトピック機能を組み込んでコンテキストを豊かにする。ベンチマークMREデータセットでは、我々のシステムは現在の最高のモデルよりも大幅に優れています。さらに詳細な分析により,本手法のMREタスクに対する大きな可能性を明らかにする。私たちのコードはhttps://github.com/ChocoWu/MRE-ISE.comで公開されています。

関連論文リスト

Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
Few-Shot Joint Multimodal Entity-Relation Extraction via Knowledge-Enhanced Cross-modal Prompt Model [16.03304915788997]
JMERE(Joint Multimodal Entity-Relation extract)は、ソーシャルメディア投稿において、エンティティとそれらの関係をテキストイメージペアから抽出することを目的とした課題である。 JMEREの既存の方法は大量のラベル付きデータを必要とする。 textbfKnowledge-textbfEnhanced textbfCross-modal textbfPrompt textbfModelを紹介する。
論文参考訳（メタデータ） (2024-10-18T07:14:54Z)
Leveraging Entity Information for Cross-Modality Correlation Learning: The Entity-Guided Multimodal Summarization [49.08348604716746]
Multimodal Summarization with Multimodal Output (MSMO) は、テキストと関連する画像の両方を統合するマルチモーダル要約を作成することを目的としている。本稿では,Entity-Guided Multimodal Summarization Model (EGMS)を提案する。我々のモデルは,BART上に構築され,共有重み付きデュアルマルチモーダルエンコーダを用いて,テキスト画像とエンティティ画像情報を並列に処理する。
論文参考訳（メタデータ） (2024-08-06T12:45:56Z)
MyGO: Discrete Modality Information as Fine-Grained Tokens for Multi-modal Knowledge Graph Completion [51.80447197290866]
MMKGの微細なモダリティ情報を処理・融合・拡張するためにMyGOを導入する。 MyGOは、マルチモーダルな生データをきめ細かい離散トークンとしてトークン化し、クロスモーダルなエンティティエンコーダでエンティティ表現を学習する。標準MMKGCベンチマーク実験により,本手法が最新の20モデルを上回ることがわかった。
論文参考訳（メタデータ） (2024-04-15T05:40:41Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
Multi-source Semantic Graph-based Multimodal Sarcasm Explanation Generation [53.97962603641629]
本稿では,mulTi-source sEmantic grAph-based Multimodal sarcasm explanation scheme, TEAMを提案する。 TEAMは、入力画像から従来のグローバルな視覚的特徴の代わりに、オブジェクトレベルのセマンティックメタデータを抽出する。 TEAMはマルチソース意味関係を包括的に特徴付けるマルチソース意味グラフを導入している。
論文参考訳（メタデータ） (2023-06-29T03:26:10Z)
Dual-Gated Fusion with Prefix-Tuning for Multi-Modal Relation Extraction [13.454953507205278]
マルチモーダル関係抽出は、視覚的手がかりを含むテキスト中の2つの実体間の関係を特定することを目的としている。本稿では,テキスト,エンティティペア,画像/オブジェクトのより深い相関関係をよりよく捉えるための新しいMMREフレームワークを提案する。本手法は, 少数の状況においても, 強力な競合相手と比較して優れた性能を発揮する。
論文参考訳（メタデータ） (2023-06-19T15:31:34Z)
Enhancing Multimodal Entity and Relation Extraction with Variational Information Bottleneck [12.957002659910456]
マルチモーダルなエンティティ認識(MNER)とマルチモーダルな関係抽出(MRE)について検討する。 MNERとMREの中核は、テキストセマンティクスを強化するために明らかな視覚情報を統合することである。 MMIB(Information Bottleneck)を用いたマルチモーダル表現学習によるMNERとMREの新しい手法を提案する。
論文参考訳（メタデータ） (2023-04-05T09:32:25Z)
Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。新たなマルチモーダル検索フレームワーク(MoRe)を提案する。 MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文参考訳（メタデータ） (2022-12-03T13:11:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。