論文の概要: A Discriminative Vectorial Framework for Multi-modal Feature
Representation
- arxiv url: http://arxiv.org/abs/2103.05597v1
- Date: Tue, 9 Mar 2021 18:18:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-10 14:51:56.957575
- Title: A Discriminative Vectorial Framework for Multi-modal Feature
Representation
- Title(参考訳): マルチモーダル特徴表現のための識別ベクトル枠組み
- Authors: Lei Gao, and Ling Guan
- Abstract要約: 知識発見におけるマルチモーダル特徴表現のための識別フレームワークを提案する。
マルチモーダルハッシュ(MH)と識別相関(DCM)分析を採用しています。
このフレームワークは最先端統計機械学習(s.m.)よりも優れている。
そしてディープネットワークニューラルネットワーク(DNN)アルゴリズム。
- 参考スコア(独自算出の注目度): 19.158947368297557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the rapid advancements of sensory and computing technology,
multi-modal data sources that represent the same pattern or phenomenon have
attracted growing attention. As a result, finding means to explore useful
information from these multi-modal data sources has quickly become a necessity.
In this paper, a discriminative vectorial framework is proposed for multi-modal
feature representation in knowledge discovery by employing multi-modal hashing
(MH) and discriminative correlation maximization (DCM) analysis. Specifically,
the proposed framework is capable of minimizing the semantic similarity among
different modalities by MH and exacting intrinsic discriminative
representations across multiple data sources by DCM analysis jointly, enabling
a novel vectorial framework of multi-modal feature representation. Moreover,
the proposed feature representation strategy is analyzed and further optimized
based on canonical and non-canonical cases, respectively. Consequently, the
generated feature representation leads to effective utilization of the input
data sources of high quality, producing improved, sometimes quite impressive,
results in various applications. The effectiveness and generality of the
proposed framework are demonstrated by utilizing classical features and deep
neural network (DNN) based features with applications to image and multimedia
analysis and recognition tasks, including data visualization, face recognition,
object recognition; cross-modal (text-image) recognition and audio emotion
recognition. Experimental results show that the proposed solutions are superior
to state-of-the-art statistical machine learning (SML) and DNN algorithms.
- Abstract(参考訳): 感覚とコンピューティング技術の急速な進歩により、同じパターンや現象を表すマルチモーダルデータソースが注目を集めています。
その結果、これらのマルチモーダルデータソースから有用な情報を探索する手段が急速に求められている。
本稿では、マルチモーダルハッシュ(MH)と識別相関最大化(DCM)解析を用いて、知識発見におけるマルチモーダル特徴表現のための識別ベクトルフレームワークを提案する。
具体的には、MHにより異なるモダリティ間の意味的類似性を最小化し、DCM分析により複数のデータソースにまたがる固有識別表現を精度よく同定し、マルチモーダル特徴表現の新たなベクトル的フレームワークを実現する。
さらに,提案する特徴表現戦略を解析し,標準ケースと非標準ケースに基づいてさらに最適化する。
その結果、生成した特徴表現は、高品質な入力データソースを効果的に利用し、様々なアプリケーションで改善され、時には非常に印象的な結果をもたらす。
提案フレームワークの有効性と汎用性は,古典的特徴とディープニューラルネットワーク(DNN)に基づく特徴と,データ可視化,顔認識,オブジェクト認識,クロスモーダル(テキストイメージ)認識,音声感情認識など,画像およびマルチメディア分析および認識タスクへの応用によって実証される。
実験の結果,提案手法は最先端統計機械学習(SML)やDNNアルゴリズムよりも優れていることがわかった。
関連論文リスト
- Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Learning Multimodal Data Augmentation in Feature Space [65.54623807628536]
LeMDAは、機能空間におけるマルチモーダルデータを共同で拡張することを自動的に学習する、使い易い方法である。
我々はLeMDAがマルチモーダルディープラーニングアーキテクチャの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:39:36Z) - Multimodal Adversarially Learned Inference with Factorized
Discriminators [10.818838437018682]
本稿では,生成逆ネットワークに基づくマルチモーダルデータの生成モデリングのための新しい手法を提案する。
コヒーレントなマルチモーダル生成モデルを学習するためには、異なるエンコーダ分布とジョイントデコーダ分布を同時に整合させることが必要であることを示す。
判別器を分解することで、対照的な学習を生かし、単調なデータに基づいてモデルを訓練する。
論文 参考訳(メタデータ) (2021-12-20T08:18:49Z) - How to Sense the World: Leveraging Hierarchy in Multimodal Perception
for Robust Reinforcement Learning Agents [9.840104333194663]
我々は表現モデルの設計における階層性を主張し、新しいマルチモーダル表現モデルであるMUSEに貢献する。
MUSEは,アタリゲームにおけるマルチモーダル観察を備えた深層強化学習エージェントの感覚表現モデルである。
我々は、強化学習エージェントの異なる設計に関する比較研究を行い、MUSEは、エージェントが最小性能の損失で不完全な知覚経験の下でタスクを実行できることを示した。
論文 参考訳(メタデータ) (2021-10-07T16:35:23Z) - The Labeled Multiple Canonical Correlation Analysis for Information
Fusion [25.23035811685684]
Labeled Multiple Canonical Correlation Analysis (LMCCA) に基づくマルチモーダル情報融合と表現の新しい方法を紹介します。
LMCCAのプロトタイプを実装し,手書き文字認識,顔認識,物体認識において有効性を示す。
論文 参考訳(メタデータ) (2021-02-28T00:13:36Z) - Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。
共通情報と相補情報の両方を敵意で抽出することを目的としている。
特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文 参考訳(メタデータ) (2021-02-15T18:46:44Z) - Self-Supervised Multimodal Domino: in Search of Biomarkers for
Alzheimer's Disease [19.86082635340699]
自己監督型表現学習アルゴリズムを編成する合理的な方法の分類法を提案する。
まず,おもちゃのマルチモーダルMNISTデータセットのモデルを評価し,アルツハイマー病患者を用いたマルチモーダル・ニューロイメージングデータセットに適用した。
提案手法は,従来の自己教師付きエンコーダデコーダ法よりも優れていた。
論文 参考訳(メタデータ) (2020-12-25T20:28:13Z) - Heterogeneous Network Representation Learning: A Unified Framework with
Survey and Benchmark [57.10850350508929]
我々は、異種ネットワーク埋め込み(HNE)に関する既存の研究を要約し、評価するための統一的なフレームワークを提供することを目指している。
最初のコントリビューションとして、既存のHNEアルゴリズムのメリットを体系的に分類し分析するための一般的なパラダイムを提供する。
第2のコントリビューションとして、さまざまなソースから、スケール、構造、属性/ラベルの可用性などに関するさまざまな特性を備えた4つのベンチマークデータセットを作成します。
第3のコントリビューションとして、13の人気のあるHNEアルゴリズムに対するフレンドリなインターフェースを作成し、複数のタスクと実験的な設定に対して、それらの全周比較を提供する。
論文 参考訳(メタデータ) (2020-04-01T03:42:11Z) - Modality Compensation Network: Cross-Modal Adaptation for Action
Recognition [77.24983234113957]
異なるモダリティの関係を探索するためのモダリティ補償ネットワーク(MCN)を提案する。
我々のモデルは、適応表現学習を実現するために、モーダリティ適応ブロックによって、ソースおよび補助モーダリティからのデータをブリッジする。
実験の結果,MCNは4つの広く使用されている行動認識ベンチマークにおいて,最先端のアプローチよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-01-31T04:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。