論文の概要: REMOTE: A Unified Multimodal Relation Extraction Framework with Multilevel Optimal Transport and Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2509.04844v1
- Date: Fri, 05 Sep 2025 06:52:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.49661
- Title: REMOTE: A Unified Multimodal Relation Extraction Framework with Multilevel Optimal Transport and Mixture-of-Experts
- Title(参考訳): REMOTE:マルチレベル最適輸送と混合実験を用いた統合マルチモーダル関係抽出フレームワーク
- Authors: Xinkui Lin, Yongxiu Xu, Minghao Tang, Shilong Zhang, Hongbo Xu, Hao Xu, Yubin Wang,
- Abstract要約: マルチモーダル関係抽出(MRE)は知識グラフとマルチメディアの分野において重要な課題である。
本稿では,マルチレベル最適輸送と混合実験を用いた新しいテキスト化マルチモーダル関係抽出フレームワークを提案する。
- 参考スコア(独自算出の注目度): 20.43650235783012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal relation extraction (MRE) is a crucial task in the fields of Knowledge Graph and Multimedia, playing a pivotal role in multimodal knowledge graph construction. However, existing methods are typically limited to extracting a single type of relational triplet, which restricts their ability to extract triplets beyond the specified types. Directly combining these methods fails to capture dynamic cross-modal interactions and introduces significant computational redundancy. Therefore, we propose a novel \textit{unified multimodal Relation Extraction framework with Multilevel Optimal Transport and mixture-of-Experts}, termed REMOTE, which can simultaneously extract intra-modal and inter-modal relations between textual entities and visual objects. To dynamically select optimal interaction features for different types of relational triplets, we introduce mixture-of-experts mechanism, ensuring the most relevant modality information is utilized. Additionally, considering that the inherent property of multilayer sequential encoding in existing encoders often leads to the loss of low-level information, we adopt a multilevel optimal transport fusion module to preserve low-level features while maintaining multilayer encoding, yielding more expressive representations. Correspondingly, we also create a Unified Multimodal Relation Extraction (UMRE) dataset to evaluate the effectiveness of our framework, encompassing diverse cases where the head and tail entities can originate from either text or image. Extensive experiments show that REMOTE effectively extracts various types of relational triplets and achieves state-of-the-art performanc on almost all metrics across two other public MRE datasets. We release our resources at https://github.com/Nikol-coder/REMOTE.
- Abstract(参考訳): マルチモーダル関係抽出(MRE)は知識グラフとマルチメディアの分野において重要な課題であり,多モーダル知識グラフ構築において重要な役割を担っている。
しかし、既存の手法は通常、単一のタイプのリレーショナル三重項を抽出することに制限されており、これは指定された型を超えて三重項を抽出する能力を制限する。
これらの手法を直接組み合わせると、動的モーダル相互作用を捉えることができず、大きな計算冗長性をもたらす。
そこで本稿では, テキストエンティティと視覚オブジェクト間のモーダル内・モーダル間関係を同時に抽出できるREMOTEと呼ばれる, マルチレベル・最適輸送と混在した新しい多モーダル関係抽出フレームワークを提案する。
異なるタイプのリレーショナル三重項に対する最適相互作用特徴を動的に選択するために、最も関連性の高いモダリティ情報を確実に活用するために、Mix-of-experts機構を導入する。
さらに、既存のエンコーダにおける多重層シーケンシャルエンコーディングの性質が低レベル情報の損失につながる場合が多いことを考慮し、多層エンコーダを維持しながら低レベル特徴を保ち、より表現力のある表現を得られるように、多レベル最適トランスポート融合モジュールを採用する。
また,本フレームワークの有効性を評価するための統一マルチモーダル関係抽出(UMRE)データセットを作成した。
大規模な実験により、REMOTEは様々な種類のリレーショナルトリプレットを効果的に抽出し、他の2つの公開MREデータセットのほぼすべてのメトリクスで最先端のパフォーマンスを達成することが示された。
私たちはリソースをhttps://github.com/Nikol-coder/REMOTEでリリースします。
関連論文リスト
- MANGO: Multimodal Attention-based Normalizing Flow Approach to Fusion Learning [12.821814562210632]
本稿では,マルチモーダルアテンションに基づく正規化フロー(MANGO)アプローチを提案する。
マルチモーダルデータのための正規化フローベースモデルを開発するために,新しい非可逆クロスアテンション層を提案する。
また,MMCA(Modality-to-Modality Cross-Attention),IMCA(Inter-Modality Cross-Attention),ICA(Learable Inter-Modality Cross-Attention)の3つの新しいクロスアテンション機構を導入する。
論文 参考訳(メタデータ) (2025-08-13T18:56:57Z) - Learning Item Representations Directly from Multimodal Features for Effective Recommendation [51.49251689107541]
マルチモーダルレコメンデータシステムは、主にベイズパーソナライズされたランク付け(BPR)最適化を利用してアイテム表現を学習する。
本稿では,マルチモーダルな特徴からアイテム表現を直接学習し,推薦性能を向上する新しいモデル(LIRDRec)を提案する。
論文 参考訳(メタデータ) (2025-05-08T05:42:22Z) - IDEA: Inverted Text with Cooperative Deformable Aggregation for Multi-modal Object Re-Identification [60.38841251693781]
本稿では,ロバストなマルチモーダルオブジェクトReIDを生成する新しいフレームワークを提案する。
我々のフレームワークは、多モーダル情報と逆テキストからのセマンティックガイダンスを統合するために、Modal PrefixesとInverseNetを使用している。
3つのマルチモーダルオブジェクトReIDベンチマーク実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2025-03-13T13:00:31Z) - Multimodal Relational Triple Extraction with Query-based Entity Object Transformer [20.97497765985682]
マルチモーダル関係抽出は、柔軟で現実的な知識の構築に不可欠である。
画像・テキスト・ペアから全三重項(エンタリティ,関係,オブジェクト領域)を抽出することを目的としたマルチモーダル・エンティティ・オブジェクト・トリプル抽出を提案する。
また,テキスト情報と視覚情報の相互作用と融合を動的に探索するクエリベースモデルQEOTを提案する。
論文 参考訳(メタデータ) (2024-08-16T12:43:38Z) - MM-GEF: Multi-modal representation meet collaborative filtering [43.88159639990081]
本稿では,グラフアーリーフュージョンを用いたマルチモーダルレコメンデーション MM-GEF を提案する。
MM-GEFはマルチモーダル信号と協調信号の両方から得られる構造情報を注入することにより、洗練された項目表現を学習する。
論文 参考訳(メタデータ) (2023-08-14T15:47:36Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - Multi-modal Contrastive Representation Learning for Entity Alignment [57.92705405276161]
マルチモーダルなエンティティアライメントは、2つの異なるマルチモーダルな知識グラフ間で等価なエンティティを識別することを目的としている。
マルチモーダルコントラスト学習に基づくエンティティアライメントモデルであるMCLEAを提案する。
特に、MCLEAはまず複数のモダリティから複数の個別表現を学習し、その後、モダリティ内およびモダリティ間相互作用を共同でモデル化するコントラスト学習を行う。
論文 参考訳(メタデータ) (2022-09-02T08:59:57Z) - Mining Latent Structures for Multimedia Recommendation [46.70109406399858]
本稿では,マルチモーダル再圧縮のためのLATent sTructureマイニング手法を提案する。
各モダリティの項目構造を学び、複数のモダリティを集約して潜在アイテムグラフを得る。
学習した潜在グラフに基づいてグラフ畳み込みを行い、アイテム表現に高次項目親和性を明示的に注入する。
論文 参考訳(メタデータ) (2021-04-19T03:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。