論文の概要: HAVE-Net: Hallucinated Audio-Visual Embeddings for Few-Shot
Classification with Unimodal Cues
- arxiv url: http://arxiv.org/abs/2309.13470v1
- Date: Sat, 23 Sep 2023 20:05:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 19:31:34.487680
- Title: HAVE-Net: Hallucinated Audio-Visual Embeddings for Few-Shot
Classification with Unimodal Cues
- Title(参考訳): HAVE-Net:一様クイズを用いたハロゲン化オーディオ・ビジュアル・エンベディング
- Authors: Ankit Jha, Debabrata Pal, Mainak Singha, Naman Agarwal, Biplab
Banerjee
- Abstract要約: 閉鎖性、クラス内変異、照明等は、一方向RS視覚入力を用いたニューラルネットワークのトレーニング中に生じる可能性がある。
そこで本稿では,Halucinated Audio-Visual Embeddings-Network (HAVE-Net) という,限られた単調データからメタトレインのクロスモーダルな特徴を抽出する手法を提案する。
- 参考スコア(独自算出の注目度): 19.800985243540797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognition of remote sensing (RS) or aerial images is currently of great
interest, and advancements in deep learning algorithms added flavor to it in
recent years. Occlusion, intra-class variance, lighting, etc., might arise
while training neural networks using unimodal RS visual input. Even though
joint training of audio-visual modalities improves classification performance
in a low-data regime, it has yet to be thoroughly investigated in the RS
domain. Here, we aim to solve a novel problem where both the audio and visual
modalities are present during the meta-training of a few-shot learning (FSL)
classifier; however, one of the modalities might be missing during the
meta-testing stage. This problem formulation is pertinent in the RS domain,
given the difficulties in data acquisition or sensor malfunctioning. To
mitigate, we propose a novel few-shot generative framework, Hallucinated
Audio-Visual Embeddings-Network (HAVE-Net), to meta-train cross-modal features
from limited unimodal data. Precisely, these hallucinated features are
meta-learned from base classes and used for few-shot classification on novel
classes during the inference phase. The experimental results on the benchmark
ADVANCE and AudioSetZSL datasets show that our hallucinated modality
augmentation strategy for few-shot classification outperforms the classifier
performance trained with the real multimodal information at least by 0.8-2%.
- Abstract(参考訳): リモートセンシング(RS)や空中画像の認識は、現在大きな関心を集めており、近年の深層学習アルゴリズムの進歩にフレーバーが加えられている。
不定形RS視覚入力を用いてニューラルネットワークをトレーニング中に、閉塞、クラス内分散、照明などが発生する可能性がある。
音声・視覚的モダリティの併用訓練は低データ状態における分類性能を向上させるが,RS領域では十分に研究されていない。
本稿では,数発学習(fsl)分類器のメタトレーニング中に音声と視覚のモダリティが共存する新しい問題を解決することを目的としているが,メタテスト段階ではモダリティが欠落している可能性がある。
この問題の定式化は、データ取得やセンサーの誤動作の難しさから、rsドメインに関係している。
そこで本稿では,Halucinated Audio-Visual Embeddings-Network (HAVE-Net) という,複数ショット生成フレームワークを提案する。
正確には、これらの幻覚的な特徴はベースクラスからメタ学習され、推論フェーズの間、新しいクラスで少数ショットの分類に使用される。
ADVANCEとAudioSetZSLのベンチマークによる実験結果から,実マルチモーダル情報を用いて訓練した分類器の性能を少なくとも0.8-2%向上させることができた。
関連論文リスト
- Policy Gradient-Driven Noise Mask [3.69758875412828]
本稿では,マルチモーダル・マルチオーガナイズドデータセットの性能向上に適した条件付きノイズマスクの生成を学習する,新しい事前学習パイプラインを提案する。
重要な側面は、ポリシーネットワークの役割が微調整の前に中間的な(または加熱された)モデルを取得することに限定されていることである。
その結果、中間モデルの微調整は、分類と一般化の両方の従来の訓練アルゴリズムよりも、目に見えない概念タスクに優れていた。
論文 参考訳(メタデータ) (2024-04-29T23:53:42Z) - V2A-Mapper: A Lightweight Solution for Vision-to-Audio Generation by
Connecting Foundation Models [14.538853403226751]
基礎モデル(FM)の上に人工知能システムを構築することは、AI研究の新たなパラダイムになりつつある。
本稿では,基礎モデル,特にCLIP,CLAP,AudioLDMを活用することで,この問題に対する軽量な解決策を提案する。
提案手法では,V2A-Mapperを高速に訓練し,高忠実で視覚的に整合した音を生成する。
論文 参考訳(メタデータ) (2023-08-18T04:49:38Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - An Audio-Visual Speech Separation Model Inspired by Cortico-Thalamo-Cortical Circuits [22.558134249701794]
音声・視覚音声分離のための新しい皮質・視床・皮質神経回路(CTCNet)を提案する。
CTCNetは階層的な聴覚と視覚の表現をボトムアップで学習する。
3つの音声分離ベンチマークデータセットの実験では、CTCNetはパラメータがかなり少ない既存のAVSSメソッドよりも著しく優れていた。
論文 参考訳(メタデータ) (2022-12-21T03:28:30Z) - Generalizing Face Forgery Detection with High-frequency Features [63.33397573649408]
現在のCNNベースの検出器は、メソッド固有の色テクスチャに過度に適合するため、一般化に失敗する傾向にある。
フェースフォージェリ検出に高周波雑音を用いることを提案する。
1つは、複数のスケールで高周波ノイズを抽出するマルチスケールの高周波特徴抽出モジュールである。
2つ目は、低レベルRGB特徴抽出器を導く残差誘導空間注意モジュールで、新しい視点からフォージェリートレースにもっと集中する。
論文 参考訳(メタデータ) (2021-03-23T08:19:21Z) - Contrastive Prototype Learning with Augmented Embeddings for Few-Shot
Learning [58.2091760793799]
拡張埋め込み(CPLAE)モデルを用いた新しいコントラスト型プロトタイプ学習を提案する。
クラスプロトタイプをアンカーとして、CPLは、同じクラスのクエリサンプルを、異なるクラスのサンプルを、さらに遠くに引き出すことを目的としている。
いくつかのベンチマークによる大規模な実験により,提案したCPLAEが新たな最先端を実現することが示された。
論文 参考訳(メタデータ) (2021-01-23T13:22:44Z) - RS-MetaNet: Deep meta metric learning for few-shot remote sensing scene
classification [9.386331325959766]
本研究では,実世界のリモートセンシングシーンの分類に関する問題を解決するため,RS-MetaNetを提案する。
一方、RS-MetaNetは、メタ方法でトレーニングを組織することで、サンプルからタスクへの学習レベルを高め、一連のタスクからリモートセンシングシーンを適切に分類できるメトリクス空間を学習する。
また,各カテゴリ間の距離を最大化することにより,モデルから新しいサンプルへの一般化能力を最大化する「バランスロス」という新たな損失関数を提案する。
論文 参考訳(メタデータ) (2020-09-28T14:34:15Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z) - Rectified Meta-Learning from Noisy Labels for Robust Image-based Plant
Disease Diagnosis [64.82680813427054]
植物病は食料安全保障と作物生産に対する主要な脅威の1つである。
1つの一般的なアプローチは、葉画像分類タスクとしてこの問題を変換し、強力な畳み込みニューラルネットワーク(CNN)によって対処できる。
本稿では,正規化メタ学習モジュールを共通CNNパラダイムに組み込んだ新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-17T09:51:30Z) - CURE Dataset: Ladder Networks for Audio Event Classification [15.850545634216484]
約300万人が聴覚障害を抱えており、周囲で起きている出来事を認識できない。
本稿では,難聴者に対して最も関連性の高い特定の音声イベントをキュレートしたCUREデータセットを確立する。
論文 参考訳(メタデータ) (2020-01-12T09:35:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。