論文の概要: M-MRE: Extending the Mutual Reinforcement Effect to Multimodal Information Extraction
- arxiv url: http://arxiv.org/abs/2504.17353v1
- Date: Thu, 24 Apr 2025 08:14:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.291247
- Title: M-MRE: Extending the Mutual Reinforcement Effect to Multimodal Information Extraction
- Title(参考訳): M-MRE:マルチモーダル情報抽出における相互強化効果の拡張
- Authors: Chengguang Gan, Sunbowen Lee, Zhixi Cai, Yanbin Wei, Lei Zheng, Yunhao Liang, Shiwen Ni, Tatsunori Mori,
- Abstract要約: MRE(Multual Reinforcement Effect)は、情報抽出とモデル解釈可能性の交差する新興サブフィールドである。
我々は、Multimodal Mutual Reinforcement Effect (M-MRE)という新しいタスクを導入し、このタスクをサポートするための対応するデータセットを構築する。
実験により、MREはマルチモーダルテキストイメージ理解のシナリオであるM-MREタスクでも観察可能であることが示された。
- 参考スコア(独自算出の注目度): 7.341313278111053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mutual Reinforcement Effect (MRE) is an emerging subfield at the intersection of information extraction and model interpretability. MRE aims to leverage the mutual understanding between tasks of different granularities, enhancing the performance of both coarse-grained and fine-grained tasks through joint modeling. While MRE has been explored and validated in the textual domain, its applicability to visual and multimodal domains remains unexplored. In this work, we extend MRE to the multimodal information extraction domain for the first time. Specifically, we introduce a new task: Multimodal Mutual Reinforcement Effect (M-MRE), and construct a corresponding dataset to support this task. To address the challenges posed by M-MRE, we further propose a Prompt Format Adapter (PFA) that is fully compatible with various Large Vision-Language Models (LVLMs). Experimental results demonstrate that MRE can also be observed in the M-MRE task, a multimodal text-image understanding scenario. This provides strong evidence that MRE facilitates mutual gains across three interrelated tasks, confirming its generalizability beyond the textual domain.
- Abstract(参考訳): MRE(Multual Reinforcement Effect)は、情報抽出とモデル解釈可能性の交差する新興サブフィールドである。
MREは、異なる粒度のタスク間の相互理解を活用し、結合モデリングによる粗粒度および細粒度のタスクの性能を向上させることを目的としている。
MREはテキスト領域で探索され、検証されているが、視覚的およびマルチモーダル領域への適用性は未解明のままである。
本研究では,MREをマルチモーダル情報抽出領域に初めて拡張する。
具体的には、Multimodal Mutual Reinforcement Effect (M-MRE)という新しいタスクを導入し、このタスクをサポートするための対応するデータセットを構築する。
M-MREがもたらす課題に対処するため,様々なLVLM(Large Vision-Language Models)と完全に互換性のあるPFA(Prompt Format Adapter)を提案する。
実験により、MREはマルチモーダルテキストイメージ理解のシナリオであるM-MREタスクでも観察可能であることが示された。
このことは、MREが3つの相互関連タスクの相互利得を促進し、テキスト領域を超えて一般化可能であることを裏付ける強い証拠となる。
関連論文リスト
- R-MTLLMF: Resilient Multi-Task Large Language Model Fusion at the Wireless Edge [78.26352952957909]
マルチタスク大言語モデル(MTLLM)は、ユーザが複数のタスクを効率的に処理するための特殊なモデルを要求する無線エッジにおける多くのアプリケーションにとって重要である。
タスクベクトルによるモデル融合の概念は、MDLLMを生成するための微調整パラメータを組み合わせるための効率的なアプローチとして登場した。
本稿では,最悪の逆攻撃を前提として,エッジユーザがタスクベクトルを介して協調的にMTLMを作成できる問題について検討する。
論文 参考訳(メタデータ) (2024-11-27T10:57:06Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - UMIE: Unified Multimodal Information Extraction with Instruction Tuning [12.777967562175437]
命令チューニングを用いた生成問題として、3つのMIEタスクを統一する統合マルチモーダル情報抽出器UMIEを提案する。
大規模な実験により、私たちのUMIEは6つのMIEデータセットで3つのタスクで様々な最先端(SoTA)メソッドより優れています。
本研究は,MIEモデルを統一化するための最初のステップとして機能し,MIEドメイン内の命令チューニングモデルと大規模言語モデルの両方を探索する。
論文 参考訳(メタデータ) (2024-01-05T22:52:15Z) - Multimodal Question Answering for Unified Information Extraction [15.798187192290746]
マルチモーダル情報抽出は、構造化されていないマルチメディアコンテンツから構造化された情報を抽出することを目的としている。
現在のMIEモデルはタスク固有でデータ集約である。
3つのMIEタスクを統合するための新しいマルチモーダル質問応答(MQA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-04T17:58:05Z) - Revisiting Disentanglement and Fusion on Modality and Context in
Conversational Multimodal Emotion Recognition [81.2011058113579]
特徴の多様性と会話の文脈化は、特徴の絡み合いと融合の段階において、同時に適切にモデル化されるべきである。
マルチモーダル・コンテキスト統合のためのコントリビューション・アウェア・フュージョン・メカニズム(CFM)とコンテキスト・リフュージョン・メカニズム(CRM)を提案する。
我々のシステムは、新しい最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2023-08-08T18:11:27Z) - Chain-of-Thought Prompt Distillation for Multimodal Named Entity
Recognition and Multimodal Relation Extraction [8.169359626365619]
思考のテキストチェーン(CoT) -- 中間推論ステップのシーケンスを生成します。
本稿では,大規模言語モデルからのコモンセンス推論能力を同化するための新しい条件付きプロンプト蒸留法を提案する。
我々のアプローチは最先端の精度を達成し、解釈可能性、データ効率、ドメイン間の一般化に関する多くの利点を示す。
論文 参考訳(メタデータ) (2023-06-25T04:33:56Z) - D$^2$TV: Dual Knowledge Distillation and Target-oriented Vision Modeling
for Many-to-Many Multimodal Summarization [113.72253589338472]
many-to-many multimodal summarization (M$3$S) タスクは、どんな言語でも文書入力と対応する画像シーケンスで要約を生成することを目的としている。
本稿では,M$3$Sタスクのための二重知識蒸留と目標指向視覚モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-22T06:47:35Z) - Information Screening whilst Exploiting! Multimodal Relation Extraction
with Feature Denoising and Multimodal Topic Modeling [96.75821232222201]
既存のマルチモーダル関係抽出(MRE)研究は、内部情報過剰利用と外部情報過多という2つの共存課題に直面している。
内部情報スクリーニングと外部情報活用を同時に実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:57Z) - Enhancing Multimodal Entity and Relation Extraction with Variational
Information Bottleneck [12.957002659910456]
マルチモーダルなエンティティ認識(MNER)とマルチモーダルな関係抽出(MRE)について検討する。
MNERとMREの中核は、テキストセマンティクスを強化するために明らかな視覚情報を統合することである。
MMIB(Information Bottleneck)を用いたマルチモーダル表現学習によるMNERとMREの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T09:32:25Z) - Tackling Visual Control via Multi-View Exploration Maximization [64.8463574294237]
MEMは強化学習における多視点表現学習と報酬駆動探索を組み合わせた最初のアプローチである
我々は,DeepMind Control Suite と Procgen の様々なタスクにおける MEM の評価を行った。
論文 参考訳(メタデータ) (2022-11-28T11:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。