論文の概要: The Labeled Multiple Canonical Correlation Analysis for Information
Fusion
- arxiv url: http://arxiv.org/abs/2103.00359v1
- Date: Sun, 28 Feb 2021 00:13:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 17:13:28.593090
- Title: The Labeled Multiple Canonical Correlation Analysis for Information
Fusion
- Title(参考訳): 情報融合のためのラベル付きマルチカノニカル相関解析
- Authors: Lei Gao, Rui Zhang, Lin Qi, Enqing Chen, and Ling Guan
- Abstract要約: Labeled Multiple Canonical Correlation Analysis (LMCCA) に基づくマルチモーダル情報融合と表現の新しい方法を紹介します。
LMCCAのプロトタイプを実装し,手書き文字認識,顔認識,物体認識において有効性を示す。
- 参考スコア(独自算出の注目度): 25.23035811685684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The objective of multimodal information fusion is to mathematically analyze
information carried in different sources and create a new representation which
will be more effectively utilized in pattern recognition and other multimedia
information processing tasks. In this paper, we introduce a new method for
multimodal information fusion and representation based on the Labeled Multiple
Canonical Correlation Analysis (LMCCA). By incorporating class label
information of the training samples,the proposed LMCCA ensures that the fused
features carry discriminative characteristics of the multimodal information
representations, and are capable of providing superior recognition performance.
We implement a prototype of LMCCA to demonstrate its effectiveness on
handwritten digit recognition,face recognition and object recognition utilizing
multiple features,bimodal human emotion recognition involving information from
both audio and visual domains. The generic nature of LMCCA allows it to take as
input features extracted by any means,including those by deep learning (DL)
methods. Experimental results show that the proposed method enhanced the
performance of both statistical machine learning (SML) methods, and methods
based on DL.
- Abstract(参考訳): マルチモーダル情報融合の目的は、異なるソースに含まれる情報を数学的に分析し、パターン認識やその他のマルチメディア情報処理タスクでより効果的に利用される新しい表現を作成することです。
本稿では,ラベル付き多重正準相関解析(LMCCA)に基づくマルチモーダル情報融合と表現の新しい手法を提案する。
LMCCAは、トレーニングサンプルのクラスラベル情報を取り入れることにより、融合した特徴がマルチモーダル情報表現の識別特性を担い、優れた認識性能を提供できることを保証します。
音声領域と視覚領域の両方の情報を含むバイモーダルな人間の感情認識を用いて,手書き文字認識,顔認識,物体認識においてその効果を示すために,lmccaのプロトタイプを実装した。
LMCCAの一般的な性質は、ディープラーニング(DL)手法を含むあらゆる手段によって抽出された入力特徴として利用することができる。
実験結果から,提案手法は統計的機械学習(SML)手法とDLに基づく手法の両方の性能を向上させた。
関連論文リスト
- RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Completed Feature Disentanglement Learning for Multimodal MRIs Analysis [36.32164729310868]
特徴不整合(FD)に基づく手法はマルチモーダルラーニング(MML)において大きな成功を収めた
本稿では,特徴デカップリング時に失われた情報を復元する完全特徴分散(CFD)戦略を提案する。
具体的には、CFD戦略は、モダリティ共有とモダリティ固有の特徴を識別するだけでなく、マルチモーダル入力のサブセット間の共有特徴を分離する。
論文 参考訳(メタデータ) (2024-07-06T01:49:38Z) - Multimodal Multilabel Classification by CLIP [3.1002416427168304]
マルチモーダルマルチラベル分類(MMC)は、2つのデータソースを扱う学習アルゴリズムの設計を目的とした課題である。
本稿では,特徴抽出器としてContrastive Language-Image Pre-Training(CLIP)を利用する新しい手法を利用する。
論文 参考訳(メタデータ) (2024-06-23T15:28:07Z) - Data-free Multi-label Image Recognition via LLM-powered Prompt Tuning [23.671999163027284]
本稿では,学習データを持たないマルチラベル画像認識のための新しいフレームワークを提案する。
事前学習されたLarge Language Modelの知識を使用して、CLIPのような事前学習されたVision-Language Modelをマルチラベル分類に適応させるプロンプトを学ぶ。
本フレームワークは,新しいカテゴリー認識のための複数の事前学習モデル間の相乗効果を探索する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-02T13:43:32Z) - MLIP: Enhancing Medical Visual Representation with Divergence Encoder
and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。
我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。
特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文 参考訳(メタデータ) (2024-02-03T05:48:50Z) - Convolutional autoencoder-based multimodal one-class classification [80.52334952912808]
1クラス分類は、単一のクラスからのデータを用いた学習のアプローチを指す。
マルチモーダルデータに適した深層学習一クラス分類法を提案する。
論文 参考訳(メタデータ) (2023-09-25T12:31:18Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Variational Distillation for Multi-View Learning [104.17551354374821]
我々は,多視点表現学習における2つの重要な特徴を利用するために,様々な情報ボトルネックを設計する。
厳密な理論的保証の下で,本手法は,観察とセマンティックラベルの内在的相関の把握を可能にする。
論文 参考訳(メタデータ) (2022-06-20T03:09:46Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - A Discriminative Vectorial Framework for Multi-modal Feature
Representation [19.158947368297557]
知識発見におけるマルチモーダル特徴表現のための識別フレームワークを提案する。
マルチモーダルハッシュ(MH)と識別相関(DCM)分析を採用しています。
このフレームワークは最先端統計機械学習(s.m.)よりも優れている。
そしてディープネットワークニューラルネットワーク(DNN)アルゴリズム。
論文 参考訳(メタデータ) (2021-03-09T18:18:06Z) - Multi-view Data Visualisation via Manifold Learning [0.03222802562733786]
本論文は, 学生のT分散SNE, LLE, ISOMAPの拡張を提案し, 多視点データの次元的縮小と可視化を可能にする。
マルチビューマニホールド学習手法で得られた低次元埋め込みをK平均アルゴリズムに組み込むことにより、サンプルのクラスタを正確に特定できることを示した。
論文 参考訳(メタデータ) (2021-01-17T19:54:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。