論文の概要: Triplet Entropy Loss: Improving The Generalisation of Short Speech
Language Identification Systems
- arxiv url: http://arxiv.org/abs/2012.03775v1
- Date: Thu, 3 Dec 2020 08:20:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-24 01:54:55.957035
- Title: Triplet Entropy Loss: Improving The Generalisation of Short Speech
Language Identification Systems
- Title(参考訳): トリプルトエントロピー損失:短い音声言語識別システムの一般化の改善
- Authors: Ruan van der Merwe
- Abstract要約: 本稿では,新しい話者と新しいドメインに対する言語識別システムの一般化を改善するために,いくつかの手法を提案する。
これらの手法には、トレーニング中の周波数帯や時間帯にスペクトルを隠蔽するスペクトル拡張と、Imagenetデータセットで事前トレーニングされたCNNアーキテクチャが含まれる。
また,クロス・エントロピーとトリプルト・ロスを併用したネットワークのトレーニングを含む,トリプルト・エントロピー・ロス・トレーニング手法についても紹介した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present several methods to improve the generalisation of language
identification (LID) systems to new speakers and to new domains. These methods
involve Spectral augmentation, where spectrograms are masked in the frequency
or time bands during training and CNN architectures that are pre-trained on the
Imagenet dataset. The paper also introduces the novel Triplet Entropy Loss
training method, which involves training a network simultaneously using Cross
Entropy and Triplet loss. It was found that all three methods improved the
generalisation of the models, though not significantly. Even though the models
trained using Triplet Entropy Loss showed a better understanding of the
languages and higher accuracies, it appears as though the models still memorise
word patterns present in the spectrograms rather than learning the finer
nuances of a language. The research shows that Triplet Entropy Loss has great
potential and should be investigated further, not only in language
identification tasks but any classification task.
- Abstract(参考訳): 言語識別システム(LID)を新しい話者や新しいドメインに一般化するためのいくつかの手法を提案する。
これらの手法には、トレーニング中の周波数帯や時間帯にスペクトルを隠蔽するスペクトル拡張と、Imagenetデータセットで事前トレーニングされたCNNアーキテクチャが含まれる。
また,クロスエントロピーと三重項損失を用いてネットワークを訓練する新しい三重項エントロピー損失訓練法も紹介する。
その結果、3つの手法がいずれもモデルの一般化を改善した。
三重項エントロピー損失を用いて訓練されたモデルは、言語をよりよく理解し、高い精度を示したが、モデルは、言語の微妙なニュアンスを学ぶよりも、スペクトログラムに存在する単語パターンを記憶しているように見える。
この研究は、三重項エントロピー損失には大きな可能性があり、言語識別タスクだけでなく、分類タスクにおいても研究されるべきであることを示している。
関連論文リスト
- Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
形式言語理論は、特に認識者に関するものである。
代わりに、非公式な意味でのみ類似したプロキシタスクを使用するのが一般的である。
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価することで、このミスマッチを補正する。
論文 参考訳(メタデータ) (2024-11-11T16:33:25Z) - Integrating Canonical Neural Units and Multi-Scale Training for Handwritten Text Recognition [19.05500901000957]
本稿では,新しい3次元アテンションモジュールとグローバルなコンテキスト情報を用いて,新しい認識ネットワークを提案する。
注意機構、完全接続層、再帰ユニット、畳み込み層を含む主要な正準神経ユニットを効率的にネットワークに編成する。
論文 参考訳(メタデータ) (2024-10-24T02:33:12Z) - Segment Any 3D Object with Language [58.471327490684295]
本稿では,Segment any 3D Object with LanguagE (SOLE)を紹介した。
具体的には、バックボーンとデコーダの両方にマルチモーダル意味を組み込むマルチモーダル融合ネットワークを提案する。
我々のSOLEは、ScanNetv2、ScanNet200、Replicaベンチマークにおいて、従来の方法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-04-02T17:59:10Z) - MiLe Loss: a New Loss for Mitigating the Bias of Learning Difficulties in Generative Language Models [40.992566245706996]
トークンによる学習難易度を緩和するMiLe Loss関数を提案する。
我々は468M,1.2B,6.7Bパラメータの異なるスケールで生成言語モデルを訓練する。
実験により、提案されたMiLe Lossを組み込んだモデルが下流ベンチマークで一貫したパフォーマンス向上を達成できることが明らかになった。
論文 参考訳(メタデータ) (2023-10-30T13:33:21Z) - Three ways to improve feature alignment for open vocabulary detection [88.65076922242184]
ゼロショットオープンボキャブラリ検出の鍵となる問題は、視覚的特徴とテキスト的特徴の整合性である。
以前のアプローチでは、特徴ピラミッドと検出ヘッドをゼロからトレーニングし、事前トレーニング中に確立された視覚テキストの特徴アライメントを壊す。
本稿では,これらの問題を緩和する3つの方法を提案する。まず,テキストの埋め込みを強化するための簡単なスキームを用いて,学習中に見られる少数のクラスへの過度な適合を防止する。
次に、特徴ピラミッドネットワークと検出ヘッドをトレーニング可能なショートカットを含むように変更する。
最後に、より大きなコーパスを活用するために、自己学習アプローチが使用される。
論文 参考訳(メタデータ) (2023-03-23T17:59:53Z) - Pre-Training a Graph Recurrent Network for Language Representation [34.4554387894105]
本稿では,言語モデルの事前学習のためのグラフリカレントネットワークについて考察し,各シーケンスのグラフ構造を局所的なトークンレベルの通信で構築する。
我々のモデルは、既存の注意に基づくモデルよりもコンテキスト化された特徴冗長性が少なく、より多様な出力を生成することができる。
論文 参考訳(メタデータ) (2022-09-08T14:12:15Z) - A Simple Long-Tailed Recognition Baseline via Vision-Language Model [92.2866546058082]
視覚の世界は自然にオープンクラスの長い尾の分布を示しており、現代の視覚システムには大きな課題をもたらしている。
視覚認識のための新しい経路におけるコントラスト言語事前学習の最近の進歩
我々は、長い尾の認識にコントラッシブな視覚言語モデルを活用するために、BALLADを提案する。
論文 参考訳(メタデータ) (2021-11-29T17:49:24Z) - Towards Lifelong Learning of Multilingual Text-To-Speech Synthesis [87.75833205560406]
本研究は,多言語テキスト音声(TTS)システムを学習するための生涯学習手法を提案する。
すべての言語からプールされたデータを必要としないため、ストレージと計算の負担が軽減される。
論文 参考訳(メタデータ) (2021-10-09T07:00:38Z) - Learning Efficient Representations for Keyword Spotting with Triplet
Loss [0.0]
3重項損失に基づく埋め込みと分類のためのkNNの変種の組み合わせにより、LibriSpeech由来データセット上の畳み込みネットワークの分類精度が大幅に向上することを示した。
また、現在のGoogle Speech CommandsデータセットV2 10+2クラスの分類と、約6倍のコンパクトなアーキテクチャを一致させ、Google Speech CommandsデータセットV2の35クラスの分類で現在の最高のSOTAを改善します。
論文 参考訳(メタデータ) (2021-01-12T22:55:17Z) - A Self-Supervised Gait Encoding Approach with Locality-Awareness for 3D
Skeleton Based Person Re-Identification [65.18004601366066]
3Dスケルトン配列内の歩行特徴による人物再識別(Re-ID)は、いくつかの利点を持つ新しい話題である。
本稿では、ラベルのない骨格データを利用して人物の歩行表現を学習できる自己教師付き歩行符号化手法を提案する。
論文 参考訳(メタデータ) (2020-09-05T16:06:04Z) - A Multi-cascaded Model with Data Augmentation for Enhanced Paraphrase
Detection in Short Texts [1.6758573326215689]
短文のパラフレーズ検出を改善するために,データ拡張戦略とマルチカスケードモデルを提案する。
私たちのモデルは広くて深く、クリーンでノイズの多い短いテキストにまたがってより堅牢性を提供します。
論文 参考訳(メタデータ) (2019-12-27T12:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。