Fugu-MT 論文翻訳(概要): A Discriminative Vectorial Framework for Multi-modal Feature Representation

論文の概要: A Discriminative Vectorial Framework for Multi-modal Feature Representation

arxiv url: http://arxiv.org/abs/2103.05597v1
Date: Tue, 9 Mar 2021 18:18:06 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-10 14:51:56.957575
Title: A Discriminative Vectorial Framework for Multi-modal Feature Representation
Title（参考訳）: マルチモーダル特徴表現のための識別ベクトル枠組み
Authors: Lei Gao, and Ling Guan
Abstract要約: 知識発見におけるマルチモーダル特徴表現のための識別フレームワークを提案する。マルチモーダルハッシュ(MH)と識別相関(DCM)分析を採用しています。このフレームワークは最先端統計機械学習(s.m.)よりも優れている。そしてディープネットワークニューラルネットワーク(DNN)アルゴリズム。
参考スコア（独自算出の注目度）: 19.158947368297557
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Due to the rapid advancements of sensory and computing technology, multi-modal data sources that represent the same pattern or phenomenon have attracted growing attention. As a result, finding means to explore useful information from these multi-modal data sources has quickly become a necessity. In this paper, a discriminative vectorial framework is proposed for multi-modal feature representation in knowledge discovery by employing multi-modal hashing (MH) and discriminative correlation maximization (DCM) analysis. Specifically, the proposed framework is capable of minimizing the semantic similarity among different modalities by MH and exacting intrinsic discriminative representations across multiple data sources by DCM analysis jointly, enabling a novel vectorial framework of multi-modal feature representation. Moreover, the proposed feature representation strategy is analyzed and further optimized based on canonical and non-canonical cases, respectively. Consequently, the generated feature representation leads to effective utilization of the input data sources of high quality, producing improved, sometimes quite impressive, results in various applications. The effectiveness and generality of the proposed framework are demonstrated by utilizing classical features and deep neural network (DNN) based features with applications to image and multimedia analysis and recognition tasks, including data visualization, face recognition, object recognition; cross-modal (text-image) recognition and audio emotion recognition. Experimental results show that the proposed solutions are superior to state-of-the-art statistical machine learning (SML) and DNN algorithms.
Abstract（参考訳）: 感覚とコンピューティング技術の急速な進歩により、同じパターンや現象を表すマルチモーダルデータソースが注目を集めています。その結果、これらのマルチモーダルデータソースから有用な情報を探索する手段が急速に求められている。本稿では、マルチモーダルハッシュ(MH)と識別相関最大化(DCM)解析を用いて、知識発見におけるマルチモーダル特徴表現のための識別ベクトルフレームワークを提案する。具体的には、MHにより異なるモダリティ間の意味的類似性を最小化し、DCM分析により複数のデータソースにまたがる固有識別表現を精度よく同定し、マルチモーダル特徴表現の新たなベクトル的フレームワークを実現する。さらに,提案する特徴表現戦略を解析し,標準ケースと非標準ケースに基づいてさらに最適化する。その結果、生成した特徴表現は、高品質な入力データソースを効果的に利用し、様々なアプリケーションで改善され、時には非常に印象的な結果をもたらす。提案フレームワークの有効性と汎用性は,古典的特徴とディープニューラルネットワーク(DNN)に基づく特徴と,データ可視化,顔認識,オブジェクト認識,クロスモーダル(テキストイメージ)認識,音声感情認識など,画像およびマルチメディア分析および認識タスクへの応用によって実証される。実験の結果,提案手法は最先端統計機械学習(SML)やDNNアルゴリズムよりも優れていることがわかった。

関連論文リスト

MultiSensor-Home: A Wide-area Multi-modal Multi-view Dataset for Action Recognition and Transformer-based Sensor Fusion [2.7745600113170994]
ホーム環境における包括的行動認識のための新しいベンチマークであるMultiSensor-Homeデータセットを紹介する。また,マルチモーダルマルチビュー変換器を用いたセンサフュージョン (MultiTSF) 法を提案する。
論文参考訳（メタデータ） (2025-04-03T05:23:08Z)
MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。 MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文参考訳（メタデータ） (2025-02-03T08:50:00Z)
GAMED: Knowledge Adaptive Multi-Experts Decoupling for Multimodal Fake News Detection [18.157900272828602]
マルチモーダルフェイクニュース検出は、視覚や言語などの異種データソースをモデル化することが多い。本稿では,マルチモーダルモデリングのための GAMED を新たに開発する。横断的なシナジーを強化するために、モーダルデカップリングを通じて特徴的で差別的な特徴を生み出すことに焦点を当てている。
論文参考訳（メタデータ） (2024-12-11T19:12:22Z)
Where Do We Stand with Implicit Neural Representations? A Technical and Performance Survey [16.89460694470542]
Inlicit Neural Representation (INR) は知識表現のパラダイムとして登場した。 INRは、データを連続的な暗黙の関数としてモデル化するために多層パーセプトロン(MLP)を利用する。この調査では、アクティベーション機能、位置エンコーディング、統合戦略、ネットワーク構造という4つの重要な領域に分類する明確な分類法を紹介した。
論文参考訳（メタデータ） (2024-11-06T06:14:24Z)
Binary Code Similarity Detection via Graph Contrastive Learning on Intermediate Representations [52.34030226129628]
バイナリコード類似度検出(BCSD)は、脆弱性検出、マルウェア分析、コードの再利用識別など、多くの分野で重要な役割を果たしている。本稿では,LLVM-IRと高レベルのセマンティック抽象化を利用して,コンパイル差を緩和するIRBinDiffを提案する。 IRBinDiffは1対1の比較と1対多の検索シナリオにおいて,他の主要なBCSD手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-10-24T09:09:20Z)
Online Multi-modal Root Cause Analysis [61.94987309148539]
ルート原因分析(RCA)は、マイクロサービスシステムにおける障害の根本原因の特定に不可欠である。既存のオンラインRCAメソッドは、マルチモーダルシステムにおける複雑な相互作用を見渡す単一モーダルデータのみを処理する。 OCEANは、根本原因の局在化のための新しいオンラインマルチモーダル因果構造学習手法である。
論文参考訳（メタデータ） (2024-10-13T21:47:36Z)
MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。 SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文参考訳（メタデータ） (2024-04-13T13:39:26Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
UniDiff: Advancing Vision-Language Models with Generative and Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。 UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文参考訳（メタデータ） (2023-06-01T15:39:38Z)
How to Sense the World: Leveraging Hierarchy in Multimodal Perception for Robust Reinforcement Learning Agents [9.840104333194663]
我々は表現モデルの設計における階層性を主張し、新しいマルチモーダル表現モデルであるMUSEに貢献する。 MUSEは,アタリゲームにおけるマルチモーダル観察を備えた深層強化学習エージェントの感覚表現モデルである。我々は、強化学習エージェントの異なる設計に関する比較研究を行い、MUSEは、エージェントが最小性能の損失で不完全な知覚経験の下でタスクを実行できることを示した。
論文参考訳（メタデータ） (2021-10-07T16:35:23Z)
The Labeled Multiple Canonical Correlation Analysis for Information Fusion [25.23035811685684]
Labeled Multiple Canonical Correlation Analysis (LMCCA) に基づくマルチモーダル情報融合と表現の新しい方法を紹介します。 LMCCAのプロトタイプを実装し,手書き文字認識,顔認識,物体認識において有効性を示す。
論文参考訳（メタデータ） (2021-02-28T00:13:36Z)
Self-Supervised Multimodal Domino: in Search of Biomarkers for Alzheimer's Disease [19.86082635340699]
自己監督型表現学習アルゴリズムを編成する合理的な方法の分類法を提案する。まず,おもちゃのマルチモーダルMNISTデータセットのモデルを評価し,アルツハイマー病患者を用いたマルチモーダル・ニューロイメージングデータセットに適用した。提案手法は,従来の自己教師付きエンコーダデコーダ法よりも優れていた。
論文参考訳（メタデータ） (2020-12-25T20:28:13Z)
Modality Compensation Network: Cross-Modal Adaptation for Action Recognition [77.24983234113957]
異なるモダリティの関係を探索するためのモダリティ補償ネットワーク(MCN)を提案する。我々のモデルは、適応表現学習を実現するために、モーダリティ適応ブロックによって、ソースおよび補助モーダリティからのデータをブリッジする。実験の結果,MCNは4つの広く使用されている行動認識ベンチマークにおいて,最先端のアプローチよりも優れていることがわかった。
論文参考訳（メタデータ） (2020-01-31T04:51:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。