論文の概要: Integrating Large Pre-trained Models into Multimodal Named Entity
Recognition with Evidential Fusion
- arxiv url: http://arxiv.org/abs/2306.16991v1
- Date: Thu, 29 Jun 2023 14:50:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-30 12:58:07.349248
- Title: Integrating Large Pre-trained Models into Multimodal Named Entity
Recognition with Evidential Fusion
- Title(参考訳): Evidential Fusionによる大規模事前学習モデルのマルチモーダル固有認識への統合
- Authors: Weide Liu, Xiaoyang Zhong, Jingwen Hou, Shaohua Li, Haozhe Huang and
Yuming Fang
- Abstract要約: 本稿では,MNERタスクに不確実性推定を取り入れ,信頼に値する予測を生成することを提案する。
提案アルゴリズムは,各モードの分布を正規逆ガンマ分布としてモデル化し,それらを統一分布に融合する。
2つのデータセットの実験により,提案手法がベースラインを上回り,新しい最先端性能を実現することを示す。
- 参考スコア(独自算出の注目度): 31.234455370113075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Named Entity Recognition (MNER) is a crucial task for information
extraction from social media platforms such as Twitter. Most current methods
rely on attention weights to extract information from both text and images but
are often unreliable and lack interpretability. To address this problem, we
propose incorporating uncertainty estimation into the MNER task, producing
trustworthy predictions. Our proposed algorithm models the distribution of each
modality as a Normal-inverse Gamma distribution, and fuses them into a unified
distribution with an evidential fusion mechanism, enabling hierarchical
characterization of uncertainties and promotion of prediction accuracy and
trustworthiness. Additionally, we explore the potential of pre-trained large
foundation models in MNER and propose an efficient fusion approach that
leverages their robust feature representations. Experiments on two datasets
demonstrate that our proposed method outperforms the baselines and achieves new
state-of-the-art performance.
- Abstract(参考訳): MNER(Multimodal Named Entity Recognition)は、Twitterなどのソーシャルメディアプラットフォームから情報を取り出すための重要なタスクである。
現在の手法のほとんどは、テキストと画像の両方から情報を抽出するために注意重みに依存するが、しばしば信頼できず、解釈可能性に欠ける。
そこで本研究では,mnerタスクに不確実性推定を取り入れ,信頼性の高い予測を行う。
提案するアルゴリズムは,各モダリティの分布を正規逆ガンマ分布としてモデル化し,それらの分布を証拠融合機構により統一分布に融合することにより,不確かさの階層的特徴付けと予測精度と信頼性の促進を可能にする。
さらに,MNERにおける事前学習された大規模基盤モデルの可能性を探求し,その頑健な特徴表現を利用した効率的な融合手法を提案する。
2つのデータセットの実験により,提案手法がベースラインを上回り,新しい最先端性能を実現することを示す。
関連論文リスト
- Prototype-based Aleatoric Uncertainty Quantification for Cross-modal
Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。
しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。
本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:41:19Z) - Ensemble Modeling for Multimodal Visual Action Recognition [50.38638300332429]
マルチモーダル動作認識のためのアンサンブルモデリング手法を提案する。
我々は,MECCANO[21]データセットの長期分布を処理するために,焦点損失の変種を用いて,個別のモダリティモデルを個別に訓練する。
論文 参考訳(メタデータ) (2023-08-10T08:43:20Z) - ELFNet: Evidential Local-global Fusion for Stereo Matching [17.675146012208124]
ステレオマッチングのためのtextbfEvidential textbfLocal-global textbfFusion (ELF) フレームワークを提案する。
不確実性推定と信頼に値する頭部との信頼を意識した融合の両方を付与する。
論文 参考訳(メタデータ) (2023-08-01T15:51:04Z) - Learning Against Distributional Uncertainty: On the Trade-off Between
Robustness and Specificity [24.874664446700272]
本稿では,3つのアプローチを統一し,上記の2つの課題に対処する新たな枠組みについて検討する。
提案したモデルのモンテカルロ法に基づく解法(例えば、一貫性と正規性)、非漸近性(例えば、非バイアス性や誤差境界)について検討した。
論文 参考訳(メタデータ) (2023-01-31T11:33:18Z) - Transformer Uncertainty Estimation with Hierarchical Stochastic
Attention [8.95459272947319]
本稿では,変圧器に不確実性推定機能を持たせるための新しい手法を提案する。
これは、価値と学習可能なセントロイドのセットに付随する階層的な自己注意を学ぶことで達成される。
我々は、ドメイン内(ID)とドメイン外(OOD)の両方のデータセットを用いて、2つのテキスト分類タスクでモデルを実証的に評価する。
論文 参考訳(メタデータ) (2021-12-27T16:43:31Z) - Multi-Modal Mutual Information Maximization: A Novel Approach for
Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。
モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。
提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2021-12-13T08:58:03Z) - Trustworthy Multimodal Regression with Mixture of Normal-inverse Gamma
Distributions [91.63716984911278]
このアルゴリズムは、異なるモードの適応的統合の原理における不確かさを効率的に推定し、信頼できる回帰結果を生成する。
実世界のデータと実世界のデータの両方に対する実験結果から,多モード回帰タスクにおける本手法の有効性と信頼性が示された。
論文 参考訳(メタデータ) (2021-11-11T14:28:12Z) - Modal Uncertainty Estimation via Discrete Latent Representation [4.246061945756033]
本稿では,インプットとアウトプットの1対1マッピングを,忠実な不確実性対策とともに学習するディープラーニングフレームワークを提案する。
我々のフレームワークは、現在の最先端手法よりもはるかに正確な不確実性推定を実証している。
論文 参考訳(メタデータ) (2020-07-25T05:29:34Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。