論文の概要: Optimal Transport Guided Correlation Assignment for Multimodal Entity Linking
- arxiv url: http://arxiv.org/abs/2406.01934v2
- Date: Wed, 5 Jun 2024 12:13:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 11:48:57.953780
- Title: Optimal Transport Guided Correlation Assignment for Multimodal Entity Linking
- Title(参考訳): マルチモーダルエンティティリンクのための最適輸送誘導相関アサインメント
- Authors: Zefeng Zhang, Jiawei Sheng, Chuang Zhang, Yunzhi Liang, Wenyuan Zhang, Siqi Wang, Tingwen Liu,
- Abstract要約: マルチモーダルエンティティリンクは、マルチモーダルなコンテキストにおける曖昧な言及をマルチモーダルな知識グラフ内のエンティティにリンクすることを目的としている。
既存の手法は、自動的に学習された注意重みに大きく依存して、いくつかの局所的な相関機構を試行する。
本稿では,OT-MELを用いた新しいMELフレームワークを提案する。
- 参考スコア(独自算出の注目度): 20.60198596317328
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Entity Linking (MEL) aims to link ambiguous mentions in multimodal contexts to entities in a multimodal knowledge graph. A pivotal challenge is to fully leverage multi-element correlations between mentions and entities to bridge modality gap and enable fine-grained semantic matching. Existing methods attempt several local correlative mechanisms, relying heavily on the automatically learned attention weights, which may over-concentrate on partial correlations. To mitigate this issue, we formulate the correlation assignment problem as an optimal transport (OT) problem, and propose a novel MEL framework, namely OT-MEL, with OT-guided correlation assignment. Thereby, we exploit the correlation between multimodal features to enhance multimodal fusion, and the correlation between mentions and entities to enhance fine-grained matching. To accelerate model prediction, we further leverage knowledge distillation to transfer OT assignment knowledge to attention mechanism. Experimental results show that our model significantly outperforms previous state-of-the-art baselines and confirm the effectiveness of the OT-guided correlation assignment.
- Abstract(参考訳): MEL(Multimodal Entity Linking)は、マルチモーダルなコンテキストにおける曖昧な言及をマルチモーダルな知識グラフ内のエンティティにリンクすることを目的としている。
重要な課題は、参照とエンティティ間の多要素相関を完全に活用して、モダリティギャップをブリッジし、きめ細かいセマンティックマッチングを可能にすることである。
既存の手法は、自動的に学習された注意重みに大きく依存し、部分的相関に過度に集中して、いくつかの局所的な相関機構を試みている。
この問題を緩和するために、相関代入問題を最適輸送(OT)問題として定式化し、新しいMELフレームワークであるOT-MELとOT誘導相関代入を提案する。
そこで我々は,マルチモーダル融合を向上するためのマルチモーダル特徴間の相関と,参照とエンティティ間の相関を利用して,きめ細かなマッチングを強化する。
モデル予測を高速化するために,知識蒸留を活用して,OT割当知識を注意機構に伝達する。
実験結果から,本モデルが先行技術ベースラインを著しく上回り,OT誘導相関代入の有効性が確認された。
関連論文リスト
- Cross-modulated Attention Transformer for RGBT Tracking [35.1700920590541]
本稿では,RGBT追跡のためのCross-modulated Attention Transformer (CAFormer) という新しい手法を提案する。
特に,まず各モードの相関写像を独立に生成し,それらを設計した相関変調拡張モジュールに供給する。
5つの公開RGBT追跡ベンチマークの実験は、提案したCAFormerの最先端手法に対する優れた性能を示している。
論文 参考訳(メタデータ) (2024-08-05T03:54:40Z) - CorMulT: A Semi-supervised Modality Correlation-aware Multimodal Transformer for Sentiment Analysis [2.3522423517057143]
相関対応マルチモーダルトランス(CorMulT)と呼ばれる2段階半教師付きモデルを提案する。
事前学習段階では、モーダリティ相関比較学習モジュールは、異なるモーダリティ間のモーダリティ相関係数を効率的に学習するように設計されている。
予測段階では、学習された相関係数にモダリティ表現を融合させて感情予測を行う。
論文 参考訳(メタデータ) (2024-07-09T17:07:29Z) - Correlation-Decoupled Knowledge Distillation for Multimodal Sentiment Analysis with Incomplete Modalities [16.69453837626083]
本稿では,Multimodal Sentiment Analysis (MSA)タスクのための相関分離型知識蒸留(CorrKD)フレームワークを提案する。
本稿では, クロスサンプル相関を含む包括的知識を伝達し, 欠落した意味論を再構築するサンプルレベルのコントラスト蒸留機構を提案する。
我々は,学生ネットワークの感情決定境界を最適化するために,応答不整合蒸留方式を設計する。
論文 参考訳(メタデータ) (2024-04-25T09:35:09Z) - Document-Level Relation Extraction with Relation Correlation Enhancement [10.684005956288347]
ドキュメントレベルの関係抽出(DocRE)は、ドキュメント内のエンティティ間の関係を識別することに焦点を当てたタスクである。
既存のDocREモデルは、しばしば関係関係の相関を見落とし、関係関係の定量的分析を欠いている。
本稿では,関係間の相互依存を明示的に活用することを目的とした関係グラフ手法を提案する。
論文 参考訳(メタデータ) (2023-10-06T10:59:00Z) - Leveraging Diffusion Disentangled Representations to Mitigate Shortcuts
in Underspecified Visual Tasks [92.32670915472099]
拡散確率モデル(DPM)を用いた合成カウンターファクトの生成を利用したアンサンブルの多様化フレームワークを提案する。
拡散誘導型分散化は,データ収集を必要とする従来の手法に匹敵するアンサンブル多様性を達成し,ショートカットからの注意を回避できることを示す。
論文 参考訳(メタデータ) (2023-10-03T17:37:52Z) - Knowledge-Enhanced Hierarchical Information Correlation Learning for
Multi-Modal Rumor Detection [82.94413676131545]
マルチモーダルなうわさ検出のための知識強化型階層型情報相関学習手法(KhiCL)を提案する。
KhiCLは異質な一様性特徴を共通特徴空間に伝達するために、クロスモーダルな関節辞書を利用する。
画像やテキストから視覚的およびテキスト的実体を抽出し、知識関連推論戦略を設計する。
論文 参考訳(メタデータ) (2023-06-28T06:08:20Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - IPCC-TP: Utilizing Incremental Pearson Correlation Coefficient for Joint
Multi-Agent Trajectory Prediction [73.25645602768158]
IPCC-TPはインクリメンタルピアソン相関係数に基づく新しい関連認識モジュールであり,マルチエージェントインタラクションモデリングを改善する。
我々のモジュールは、既存のマルチエージェント予測手法に便利に組み込んで、元の動き分布デコーダを拡張することができる。
論文 参考訳(メタデータ) (2023-03-01T15:16:56Z) - Adaptive Contrastive Learning on Multimodal Transformer for Review
Helpfulness Predictions [40.70793282367128]
本稿では,MRHP(Multimodal Review Helpfulness Prediction)問題に対するマルチモーダルコントラスト学習を提案する。
さらに,コントラスト学習における適応重み付け方式を提案する。
最後に,マルチモーダルデータの不整合性に対処するマルチモーダルインタラクションモジュールを提案する。
論文 参考訳(メタデータ) (2022-11-07T13:05:56Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Learning to Decouple Relations: Few-Shot Relation Classification with
Entity-Guided Attention and Confusion-Aware Training [49.9995628166064]
本稿では,2つのメカニズムを備えたモデルであるCTEGを提案する。
一方、注意を誘導するEGA機構を導入し、混乱を引き起こす情報をフィルタリングする。
一方,コンフュージョン・アウェア・トレーニング(CAT)法は,関係の識別を明示的に学習するために提案されている。
論文 参考訳(メタデータ) (2020-10-21T11:07:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。