論文の概要: A Discriminative Vectorial Framework for Multi-modal Feature
Representation
- arxiv url: http://arxiv.org/abs/2103.05597v1
- Date: Tue, 9 Mar 2021 18:18:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-10 14:51:56.957575
- Title: A Discriminative Vectorial Framework for Multi-modal Feature
Representation
- Title(参考訳): マルチモーダル特徴表現のための識別ベクトル枠組み
- Authors: Lei Gao, and Ling Guan
- Abstract要約: 知識発見におけるマルチモーダル特徴表現のための識別フレームワークを提案する。
マルチモーダルハッシュ(MH)と識別相関(DCM)分析を採用しています。
このフレームワークは最先端統計機械学習(s.m.)よりも優れている。
そしてディープネットワークニューラルネットワーク(DNN)アルゴリズム。
- 参考スコア(独自算出の注目度): 19.158947368297557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the rapid advancements of sensory and computing technology,
multi-modal data sources that represent the same pattern or phenomenon have
attracted growing attention. As a result, finding means to explore useful
information from these multi-modal data sources has quickly become a necessity.
In this paper, a discriminative vectorial framework is proposed for multi-modal
feature representation in knowledge discovery by employing multi-modal hashing
(MH) and discriminative correlation maximization (DCM) analysis. Specifically,
the proposed framework is capable of minimizing the semantic similarity among
different modalities by MH and exacting intrinsic discriminative
representations across multiple data sources by DCM analysis jointly, enabling
a novel vectorial framework of multi-modal feature representation. Moreover,
the proposed feature representation strategy is analyzed and further optimized
based on canonical and non-canonical cases, respectively. Consequently, the
generated feature representation leads to effective utilization of the input
data sources of high quality, producing improved, sometimes quite impressive,
results in various applications. The effectiveness and generality of the
proposed framework are demonstrated by utilizing classical features and deep
neural network (DNN) based features with applications to image and multimedia
analysis and recognition tasks, including data visualization, face recognition,
object recognition; cross-modal (text-image) recognition and audio emotion
recognition. Experimental results show that the proposed solutions are superior
to state-of-the-art statistical machine learning (SML) and DNN algorithms.
- Abstract(参考訳): 感覚とコンピューティング技術の急速な進歩により、同じパターンや現象を表すマルチモーダルデータソースが注目を集めています。
その結果、これらのマルチモーダルデータソースから有用な情報を探索する手段が急速に求められている。
本稿では、マルチモーダルハッシュ(MH)と識別相関最大化(DCM)解析を用いて、知識発見におけるマルチモーダル特徴表現のための識別ベクトルフレームワークを提案する。
具体的には、MHにより異なるモダリティ間の意味的類似性を最小化し、DCM分析により複数のデータソースにまたがる固有識別表現を精度よく同定し、マルチモーダル特徴表現の新たなベクトル的フレームワークを実現する。
さらに,提案する特徴表現戦略を解析し,標準ケースと非標準ケースに基づいてさらに最適化する。
その結果、生成した特徴表現は、高品質な入力データソースを効果的に利用し、様々なアプリケーションで改善され、時には非常に印象的な結果をもたらす。
提案フレームワークの有効性と汎用性は,古典的特徴とディープニューラルネットワーク(DNN)に基づく特徴と,データ可視化,顔認識,オブジェクト認識,クロスモーダル(テキストイメージ)認識,音声感情認識など,画像およびマルチメディア分析および認識タスクへの応用によって実証される。
実験の結果,提案手法は最先端統計機械学習(SML)やDNNアルゴリズムよりも優れていることがわかった。
関連論文リスト
- Where Do We Stand with Implicit Neural Representations? A Technical and Performance Survey [16.89460694470542]
Inlicit Neural Representation (INR) は知識表現のパラダイムとして登場した。
INRは、データを連続的な暗黙の関数としてモデル化するために多層パーセプトロン(MLP)を利用する。
この調査では、アクティベーション機能、位置エンコーディング、統合戦略、ネットワーク構造という4つの重要な領域に分類する明確な分類法を紹介した。
論文 参考訳(メタデータ) (2024-11-06T06:14:24Z) - Binary Code Similarity Detection via Graph Contrastive Learning on Intermediate Representations [52.34030226129628]
バイナリコード類似度検出(BCSD)は、脆弱性検出、マルウェア分析、コードの再利用識別など、多くの分野で重要な役割を果たしている。
本稿では,LLVM-IRと高レベルのセマンティック抽象化を利用して,コンパイル差を緩和するIRBinDiffを提案する。
IRBinDiffは1対1の比較と1対多の検索シナリオにおいて,他の主要なBCSD手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-24T09:09:20Z) - Online Multi-modal Root Cause Analysis [61.94987309148539]
ルート原因分析(RCA)は、マイクロサービスシステムにおける障害の根本原因の特定に不可欠である。
既存のオンラインRCAメソッドは、マルチモーダルシステムにおける複雑な相互作用を見渡す単一モーダルデータのみを処理する。
OCEANは、根本原因の局在化のための新しいオンラインマルチモーダル因果構造学習手法である。
論文 参考訳(メタデータ) (2024-10-13T21:47:36Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - How to Sense the World: Leveraging Hierarchy in Multimodal Perception
for Robust Reinforcement Learning Agents [9.840104333194663]
我々は表現モデルの設計における階層性を主張し、新しいマルチモーダル表現モデルであるMUSEに貢献する。
MUSEは,アタリゲームにおけるマルチモーダル観察を備えた深層強化学習エージェントの感覚表現モデルである。
我々は、強化学習エージェントの異なる設計に関する比較研究を行い、MUSEは、エージェントが最小性能の損失で不完全な知覚経験の下でタスクを実行できることを示した。
論文 参考訳(メタデータ) (2021-10-07T16:35:23Z) - The Labeled Multiple Canonical Correlation Analysis for Information
Fusion [25.23035811685684]
Labeled Multiple Canonical Correlation Analysis (LMCCA) に基づくマルチモーダル情報融合と表現の新しい方法を紹介します。
LMCCAのプロトタイプを実装し,手書き文字認識,顔認識,物体認識において有効性を示す。
論文 参考訳(メタデータ) (2021-02-28T00:13:36Z) - Self-Supervised Multimodal Domino: in Search of Biomarkers for
Alzheimer's Disease [19.86082635340699]
自己監督型表現学習アルゴリズムを編成する合理的な方法の分類法を提案する。
まず,おもちゃのマルチモーダルMNISTデータセットのモデルを評価し,アルツハイマー病患者を用いたマルチモーダル・ニューロイメージングデータセットに適用した。
提案手法は,従来の自己教師付きエンコーダデコーダ法よりも優れていた。
論文 参考訳(メタデータ) (2020-12-25T20:28:13Z) - Modality Compensation Network: Cross-Modal Adaptation for Action
Recognition [77.24983234113957]
異なるモダリティの関係を探索するためのモダリティ補償ネットワーク(MCN)を提案する。
我々のモデルは、適応表現学習を実現するために、モーダリティ適応ブロックによって、ソースおよび補助モーダリティからのデータをブリッジする。
実験の結果,MCNは4つの広く使用されている行動認識ベンチマークにおいて,最先端のアプローチよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-01-31T04:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。