論文の概要: Zero-Shot Audio Classification using Image Embeddings
- arxiv url: http://arxiv.org/abs/2206.04984v1
- Date: Fri, 10 Jun 2022 10:36:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-13 16:03:52.988254
- Title: Zero-Shot Audio Classification using Image Embeddings
- Title(参考訳): 画像埋め込みを用いたゼロショット音声分類
- Authors: Duygu Dogan, Huang Xie, Toni Heittola, Tuomas Virtanen
- Abstract要約: 非線形音響シーマンティック・プロジェクションを用いてゼロショット音声分類のサイド情報として画像埋め込みを導入する。
画像埋め込みは,ゼロショット音声分類を行うための意味情報として利用できることを示す。
- 参考スコア(独自算出の注目度): 16.115449653258356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supervised learning methods can solve the given problem in the presence of a
large set of labeled data. However, the acquisition of a dataset covering all
the target classes typically requires manual labeling which is expensive and
time-consuming. Zero-shot learning models are capable of classifying the unseen
concepts by utilizing their semantic information. The present study introduces
image embeddings as side information on zero-shot audio classification by using
a nonlinear acoustic-semantic projection. We extract the semantic image
representations from the Open Images dataset and evaluate the performance of
the models on an audio subset of AudioSet using semantic information in
different domains; image, audio, and textual. We demonstrate that the image
embeddings can be used as semantic information to perform zero-shot audio
classification. The experimental results show that the image and textual
embeddings display similar performance both individually and together. We
additionally calculate the semantic acoustic embeddings from the test samples
to provide an upper limit to the performance. The results show that the
classification performance is highly sensitive to the semantic relation between
test and training classes and textual and image embeddings can reach up to the
semantic acoustic embeddings when the seen and unseen classes are semantically
similar.
- Abstract(参考訳): 教師付き学習法は、ラベル付きデータの集合が存在する場合に与えられた問題を解決することができる。
しかしながら、すべてのターゲットクラスをカバーするデータセットの取得には、通常、高価で時間を要する手動ラベリングが必要となる。
ゼロショット学習モデルは、意味情報を利用して、目に見えない概念を分類することができる。
本研究では, 非線形音響意味投影を用いたゼロショット音声分類のサイド情報として画像埋め込みを導入する。
我々は,Open Imagesデータセットからセマンティック画像表現を抽出し,異なる領域のセマンティック情報(画像,音声,テキスト)を用いてAudioSetのオーディオサブセット上でモデルの性能を評価する。
画像埋め込みは,ゼロショット音声分類を行うための意味情報として利用できることを示す。
実験の結果,画像とテキストの埋め込みは,それぞれに同一の性能を示すことがわかった。
さらに,実験試料から意味的音響埋め込みを計算し,性能に上限を与える。
その結果, 分類性能は, テストクラスとトレーニングクラス間の意味的関係に非常に敏感であり, テキスト的および画像的埋め込みは, 参照クラスと未認識クラスが意味的に類似している場合に, 意味的音響的埋め込みに到達できることがわかった。
関連論文リスト
- Evaluating authenticity and quality of image captions via sentiment and semantic analyses [0.0]
ディープラーニングは、自然言語処理やコンピュータビジョンといったタスクのための大量のラベル付きデータに大きく依存している。
画像からテキストへのパイプラインや画像へのパイプラインでは、意見(知覚)は人為的な画像キャプションからモデルによって不注意に学習される。
本研究では,感情と意味的豊かさに着目した評価手法を提案する。
論文 参考訳(メタデータ) (2024-09-14T23:50:23Z) - CAPro: Webly Supervised Learning with Cross-Modality Aligned Prototypes [93.71909293023663]
クロスモダリティ・アライテッド・プロトタイプ(CAPro)は、視覚表現を正しい意味論で学習する統合コントラスト学習フレームワークである。
CAProは、新しい最先端のパフォーマンスを実現し、オープンセット認識に対する堅牢性を示す。
論文 参考訳(メタデータ) (2023-10-15T07:20:22Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning [113.50220968583353]
ゼロショット学習のための識別的視覚特性を含むセマンティック埋め込みを発見することを提案する。
本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に視覚的に分割する。
視覚的に接地されたセマンティック埋め込みは、様々なZSLモデルにまたがる単語埋め込みよりも、大きなマージンで性能を向上することを示した。
論文 参考訳(メタデータ) (2022-03-20T03:49:02Z) - Evaluating language-biased image classification based on semantic
representations [13.508894957080777]
人間は、画像-ワード干渉として知られる単語埋め込み画像に対して、言語バイアスの画像認識を示す。
人間と同様、最近の人工モデルはテキストや画像、例えばOpenAI CLIPで共同で訓練されており、言語バイアスの画像分類を示している。
論文 参考訳(メタデータ) (2022-01-26T15:46:36Z) - Detection and Captioning with Unseen Object Classes [12.894104422808242]
テストイメージには、対応する視覚的またはテキスト的トレーニング例のない視覚的オブジェクトを含むことができる。
一般化されたゼロショット検出モデルとテンプレートに基づく文生成モデルに基づく検出駆動型アプローチを提案する。
実験の結果,提案したゼロショット検出モデルにより,MS-COCOデータセット上での最先端性能が得られた。
論文 参考訳(メタデータ) (2021-08-13T10:43:20Z) - Semantic Disentangling Generalized Zero-Shot Learning [50.259058462272435]
Generalized Zero-Shot Learning (GZSL)は、目に見えないカテゴリと見えないカテゴリの両方から画像を認識することを目的としている。
本稿では,エンコーダ・デコーダアーキテクチャに基づく新しい特徴分割手法を提案する。
提案モデルは,視像の固有特徴をキャプチャする品質意味一貫性表現を蒸留することを目的としている。
論文 参考訳(メタデータ) (2021-01-20T05:46:21Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z) - Learning unbiased zero-shot semantic segmentation networks via
transductive transfer [14.55508599873219]
ゼロショットセマンティックセグメンテーションにおける予測バイアスを軽減するために, 簡単に実装可能なトランスダクティブ手法を提案する。
本手法は,全画素レベルのラベルを持つソースイメージと,未ラベルのターゲットイメージの両方をトレーニング中に利用できると仮定する。
論文 参考訳(メタデータ) (2020-07-01T14:25:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。