論文の概要: FSSUAVL: A Discriminative Framework using Vision Models for Federated Self-Supervised Audio and Image Understanding
- arxiv url: http://arxiv.org/abs/2504.09516v1
- Date: Sun, 13 Apr 2025 11:04:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:49:08.181736
- Title: FSSUAVL: A Discriminative Framework using Vision Models for Federated Self-Supervised Audio and Image Understanding
- Title(参考訳): FSSUAVL:フェデレーション型自己監督音声と画像理解のための視覚モデルを用いた識別フレームワーク
- Authors: Yasar Abbas Ur Rehman, Kin Wai Lau, Yuyang Xie, Ma Lan, JiaJun Shen,
- Abstract要約: 我々は、フェデレートラーニングで事前訓練された1つのディープモデルであるtextttFSSUAVLを紹介する。
オーディオと画像のモダリティを整列させる代わりに、texttFSSUAVLはそれらを共通の埋め込み空間に投影することで、共同で識別する。
CNN と ViT による実験により,texttFSSUAVL は様々な画像および音声に基づくダウンストリームタスクにおける性能を著しく向上することが示された。
- 参考スコア(独自算出の注目度): 10.897206681590541
- License:
- Abstract: Recent studies have demonstrated that vision models can effectively learn multimodal audio-image representations when paired. However, the challenge of enabling deep models to learn representations from unpaired modalities remains unresolved. This issue is especially pertinent in scenarios like Federated Learning (FL), where data is often decentralized, heterogeneous, and lacks a reliable guarantee of paired data. Previous attempts tackled this issue through the use of auxiliary pretrained encoders or generative models on local clients, which invariably raise computational cost with increasing number modalities. Unlike these approaches, in this paper, we aim to address the task of unpaired audio and image recognition using \texttt{FSSUAVL}, a single deep model pretrained in FL with self-supervised contrastive learning (SSL). Instead of aligning the audio and image modalities, \texttt{FSSUAVL} jointly discriminates them by projecting them into a common embedding space using contrastive SSL. This extends the utility of \texttt{FSSUAVL} to paired and unpaired audio and image recognition tasks. Our experiments with CNN and ViT demonstrate that \texttt{FSSUAVL} significantly improves performance across various image- and audio-based downstream tasks compared to using separate deep models for each modality. Additionally, \texttt{FSSUAVL}'s capacity to learn multimodal feature representations allows for integrating auxiliary information, if available, to enhance recognition accuracy.
- Abstract(参考訳): 近年の研究では、視覚モデルがペアリング時にマルチモーダルな音声画像表現を効果的に学習できることが示されている。
しかし、深いモデルで未経験のモダリティから表現を学習することの難しさは未解決のままである。
この問題はフェデレートラーニング(FL)のようなシナリオにおいて特に重要であり、データはしばしば分散化され、不均一であり、ペアデータの確実な保証が欠如している。
以前の試みでは、補助的な事前訓練エンコーダや、ローカルクライアントでの生成モデルを使用することでこの問題に対処した。
これらの手法とは異なり、本稿では、自己教師付きコントラスト学習(SSL)を備えたFLで事前訓練された1つの深層モデルである「texttt{FSSUAVL}」を用いて、未ペア音声と画像認識の課題に対処することを目的とする。
音声と画像のモダリティを整列させる代わりに、造影SSLを用いて共通の埋め込み空間に投影することで、共同で識別する。
これにより、‘texttt{FSSUAVL} のユーティリティをペアとアンペアのオーディオおよび画像認識タスクに拡張する。
CNN と ViT を用いた実験により,各モードごとに個別の深度モデルを用いることに比べて,様々な画像および音声に基づくダウンストリームタスクのパフォーマンスが著しく向上することが示された。
さらに、マルチモーダルな特徴表現を学習する \texttt{FSSUAVL} の能力は、可能であれば補助情報を統合して認識精度を高めることができる。
関連論文リスト
- Sequential Contrastive Audio-Visual Learning [12.848371604063168]
本稿では,非集約的表現空間に基づく実例を対比した逐次コントラスト型音声視覚学習(SCAV)を提案する。
VGGSoundとMusicのデータセットによる実験は、SCAVの有効性を実証している。
また、SCAVでトレーニングされたモデルが、検索に使用されるメトリックに関して、かなりの柔軟性を示すことを示す。
論文 参考訳(メタデータ) (2024-07-08T09:45:20Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Unsupervised Modality-Transferable Video Highlight Detection with Representation Activation Sequence Learning [7.908887001497406]
教師なしハイライト検出のためのクロスモーダル認識を用いた新しいモデルを提案する。
提案モデルでは,自己再構成タスクを通じて,画像と音声のペアデータから視覚レベルのセマンティクスを用いて表現を学習する。
実験結果から,提案手法は,他の最先端手法と比較して優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-03-14T13:52:03Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Semantic Cross Attention for Few-shot Learning [9.529264466445236]
本稿では,ラベルテキストのセマンティックな特徴を補助的タスクとして見るためのマルチタスク学習手法を提案する。
提案モデルでは,単語埋め込み表現をセマンティックな特徴として用いて,埋め込みネットワークとセマンティックなクロスアテンションモジュールをトレーニングし,セマンティックな特徴を一般的な視覚的モーダルにブリッジする。
論文 参考訳(メタデータ) (2022-10-12T15:24:59Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Diffusion-Based Representation Learning [65.55681678004038]
教師付き信号のない表現学習を実現するために,デノナイズスコアマッチングフレームワークを拡張した。
対照的に、拡散に基づく表現学習は、デノナイジングスコアマッチング目的の新しい定式化に依存している。
同じ手法を用いて,半教師付き画像分類における最先端モデルの改善を実現する無限次元潜在符号の学習を提案する。
論文 参考訳(メタデータ) (2021-05-29T09:26:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。