Fugu-MT 論文翻訳(概要): On Class Separability Pitfalls In Audio-Text Contrastive Zero-Shot Learning

論文の概要: On Class Separability Pitfalls In Audio-Text Contrastive Zero-Shot Learning

arxiv url: http://arxiv.org/abs/2408.13068v1
Date: Fri, 23 Aug 2024 13:52:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-26 15:00:47.005092
Title: On Class Separability Pitfalls In Audio-Text Contrastive Zero-Shot Learning
Title（参考訳）: 音声テキストコントラストゼロショット学習におけるクラス分離可能性の落とし穴について
Authors: Tiago Tavares, Fabio Ayres, Zhepei Wang, Paris Smaragdis,
Abstract要約: 測定されたゼロショット学習精度のかなりの部分は、音声とテキストのバックボーンから受け継がれた強度によるものであることを示す。本研究では,ゼロショット学習精度のかなりの部分は,音声とテキストのバックボーンから受け継がれた強度によるものであることを示す。
参考スコア（独自算出の注目度）: 14.84677162565513
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Recent advances in audio-text cross-modal contrastive learning have shown its potential towards zero-shot learning. One possibility for this is by projecting item embeddings from pre-trained backbone neural networks into a cross-modal space in which item similarity can be calculated in either domain. This process relies on a strong unimodal pre-training of the backbone networks, and on a data-intensive training task for the projectors. These two processes can be biased by unintentional data leakage, which can arise from using supervised learning in pre-training or from inadvertently training the cross-modal projection using labels from the zero-shot learning evaluation. In this study, we show that a significant part of the measured zero-shot learning accuracy is due to strengths inherited from the audio and text backbones, that is, they are not learned in the cross-modal domain and are not transferred from one modality to another.
Abstract（参考訳）: 近年の音声テキストのクロスモーダル・コントラスト学習の進歩は、ゼロショット学習への可能性を示している。この可能性の1つは、事前訓練されたバックボーンニューラルネットワークからアイテム類似性をどちらの領域でも計算できるクロスモーダル空間にアイテム埋め込みを投影することである。このプロセスは、バックボーンネットワークの強い単調な事前トレーニングと、プロジェクタのためのデータ集約的なトレーニングタスクに依存している。この2つのプロセスは、事前学習における教師あり学習の使用や、ゼロショット学習評価からラベルを用いたクロスモーダル投影の意図しない訓練から生じる非意図的なデータ漏洩によってバイアスを受けることができる。本研究では, ゼロショット学習精度のかなりの部分は, 音声とテキストのバックボーンから受け継がれた強度によるものであり, クロスモーダル領域では学習されず, モーダル領域から他の領域へ伝達されないことを示す。

関連論文リスト

Pretraining with Random Noise for Fast and Robust Learning without Weight Transport [6.916179672407521]
ランダムノイズを伴う事前学習ニューラルネットワークは、学習効率を向上し、重量輸送を伴わない一般化能力も向上することを示す。ランダムノイズとデータの両方による連続的なトレーニングは、データのみによるトレーニングよりもシナプス的なフィードバックに近い重みをもたらす。この事前正規化により、ネットワークは低ランクの単純な解を学習でき、その後の訓練における一般化損失を減らすことができる。
論文参考訳（メタデータ） (2024-05-27T00:12:51Z)
Probabilistic Contrastive Learning for Long-Tailed Visual Recognition [78.70453964041718]
細長い分布は、少数の少数派が限られた数のサンプルを含む実世界のデータにしばしば現れる。近年の研究では、教師付きコントラスト学習がデータ不均衡を緩和する有望な可能性を示していることが明らかになっている。本稿では,特徴空間の各クラスからのサンプルデータ分布を推定する確率論的コントラスト学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-03-11T13:44:49Z)
The mechanistic basis of data dependence and abrupt learning in an in-context classification task [0.3626013617212666]
本研究では,言語固有の特定の分布特性が,2種類の学習のトレードオフや同時出現を制御していることを示す。インコンテキスト学習は、誘導ヘッドの突然の出現によって駆動され、その後、インウェイト学習と競合する。注意に基づくネットワークの急激な遷移は、ICLを実現するのに必要な多層演算の特定の連鎖によって生じると提案する。
論文参考訳（メタデータ） (2023-12-03T20:53:41Z)
Deepfake Detection via Joint Unsupervised Reconstruction and Supervised Classification [25.84902508816679]
本稿では,再建作業と分類作業を同時に行うディープフェイク検出手法を提案する。この方法は、あるタスクによって学習された情報を他のタスクと共有する。提案手法は,一般的に使用されている3つのデータセットに対して,最先端の性能を実現する。
論文参考訳（メタデータ） (2022-11-24T05:44:26Z)
BatchFormer: Learning to Explore Sample Relationships for Robust Representation Learning [93.38239238988719]
本稿では,各ミニバッチからサンプル関係を学習可能なディープニューラルネットワークを提案する。 BatchFormerは各ミニバッチのバッチ次元に適用され、トレーニング中のサンプル関係を暗黙的に探索する。我々は10以上のデータセットに対して広範な実験を行い、提案手法は異なるデータ不足アプリケーションにおいて大幅な改善を実現する。
論文参考訳（メタデータ） (2022-03-03T05:31:33Z)
A Meta-Learned Neuron model for Continual Learning [0.0]
継続的な学習は、以前に学んだ知識を忘れずに新しい知識を得る能力である。本研究では、標準的なニューロンをメタ学習ニューロンモデルで置き換える。提案手法は,トレーニングサンプルのデータセット長シーケンスを記憶し,その学習能力を任意のドメインに一般化する。
論文参考訳（メタデータ） (2021-11-03T23:39:14Z)
Total Recall: a Customized Continual Learning Method for Neural Semantic Parsers [38.035925090154024]
ニューラルセマンティックは、以前のタスクから完全なトレーニングデータにアクセスすることなく、シーケンシャルにタスクを学習する。本稿では,2つの側面からニューラルセマンティクスを学習するための連続学習手法であるTotalRecallを提案する。我々は,TotalRecallで訓練したニューラルネットワークセマンティクスが,SOTA連続学習アルゴリズムで直接訓練したセマンティクスよりも優れた性能を達成し,スクラッチからのトレーニングに比べて3～6倍の高速化を実現することを示した。
論文参考訳（メタデータ） (2021-09-11T04:33:28Z)
Self-supervised Audiovisual Representation Learning for Remote Sensing Data [96.23611272637943]
遠隔センシングにおける深層ニューラルネットワークの事前学習のための自己教師型アプローチを提案する。ジオタグ付きオーディオ記録とリモートセンシングの対応を利用して、これは完全にラベルなしの方法で行われる。提案手法は,既存のリモートセンシング画像の事前学習方法よりも優れていることを示す。
論文参考訳（メタデータ） (2021-08-02T07:50:50Z)
Learning Neural Network Subspaces [74.44457651546728]
近年の観測は,ニューラルネットワーク最適化の展望の理解を深めている。 1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。 1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
論文参考訳（メタデータ） (2021-02-20T23:26:58Z)
Fast accuracy estimation of deep learning based multi-class musical source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文参考訳（メタデータ） (2020-10-19T13:05:08Z)
Automatic Recall Machines: Internal Replay, Continual Learning and the Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文参考訳（メタデータ） (2020-06-22T15:07:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。