論文の概要: Identification of Indian Languages using Ghost-VLAD pooling
- arxiv url: http://arxiv.org/abs/2002.01664v1
- Date: Wed, 5 Feb 2020 07:07:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 21:11:44.213539
- Title: Identification of Indian Languages using Ghost-VLAD pooling
- Title(参考訳): ゴースト-VLADプールを用いたインドの言語識別
- Authors: Krishna D N, Ankita Patil, M.S.P Raj, Sai Prasad H S, Prabhu Aashish
Garapati
- Abstract要約: 我々は、GhostVLADアプローチを用いて、任意の可変長入力オーディオに対する発話レベル特徴ベクトルを生成する。
インドの7言語を対象とした635Hrsの音声データについて実験を行った。
- 参考スコア(独自算出の注目度): 4.479834103607383
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we propose a new pooling strategy for language identification
by considering Indian languages. The idea is to obtain utterance level features
for any variable length audio for robust language recognition. We use the
GhostVLAD approach to generate an utterance level feature vector for any
variable length input audio by aggregating the local frame level features
across time. The generated feature vector is shown to have very good language
discriminative features and helps in getting state of the art results for
language identification task. We conduct our experiments on 635Hrs of audio
data for 7 Indian languages. Our method outperforms the previous state of the
art x-vector [11] method by an absolute improvement of 1.88% in F1-score and
achieves 98.43% F1-score on the held-out test data. We compare our system with
various pooling approaches and show that GhostVLAD is the best pooling approach
for this task. We also provide visualization of the utterance level embeddings
generated using Ghost-VLAD pooling and show that this method creates embeddings
which has very good language discriminative features.
- Abstract(参考訳): 本研究では,インド語を考慮し,言語識別のための新たなプール戦略を提案する。
本手法は,任意の可変長音声に対して,頑健な言語認識のための発話レベル特徴を得る。
我々は、ghostvladアプローチを用いて、時間毎に局所フレームレベルの特徴を集約することにより、任意の可変長入力オーディオに対して発話レベル特徴ベクトルを生成する。
生成した特徴ベクトルは非常に優れた言語識別機能を備えており、言語識別タスクにおける技術結果の取得に役立っている。
7つのインド語で635hrsの音声データについて実験を行った。
本手法は,f1-scoreにおける1.88%の絶対的改善により,art x-vector [11]法の以前の状態を上回り,ホールドアウトテストデータで98.43%のf1-scoreを達成した。
我々は,システムと様々なプール手法を比較し,GhostVLADが最適なプール手法であることを示す。
また,Ghost-VLADプーリングを用いた発話レベルの埋め込みを可視化し,優れた言語識別機能を持つ埋め込みを生成することを示す。
関連論文リスト
- Multilingual Contrastive Decoding via Language-Agnostic Layers Skipping [60.458273797431836]
対照的なレイヤ(DoLa)によるデコーディングは、大規模言語モデルの生成品質を改善するために設計されている。
このアプローチは英語以外のタスクではうまくいきません。
モデルの前方通過における言語遷移に関する従来の解釈可能性の研究から着想を得て,改良されたコントラスト復号アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-15T15:14:01Z) - OV-DINO: Unified Open-Vocabulary Detection with Language-Aware Selective Fusion [88.59397418187226]
我々はOV-DINOと呼ばれる新しいオープン語彙検出手法を提案する。
言語対応の選択的融合を統一フレームワークに組み込んだ、さまざまな大規模データセットで事前トレーニングされている。
提案するOV-DINOのオープン語彙検出ベンチマークにおける性能評価を行った。
論文 参考訳(メタデータ) (2024-07-10T17:05:49Z) - DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages [49.38663048447942]
DIALECTBENCHは,NLPの品種に対する大規模ベンチマークとして初めて提案される。
これにより、異なる言語でNLPシステムの性能を総合的に評価することができる。
標準言語と非標準言語間の性能格差の相当な証拠を提供する。
論文 参考訳(メタデータ) (2024-03-16T20:18:36Z) - Generative linguistic representation for spoken language identification [17.9575874225144]
本稿では,Whisperモデルからデコーダベースのネットワークを利用して言語的特徴を抽出する方法について検討する。
言語埋め込み法とLID出力の直接最適化に焦点を当てた2つの戦略を考案した。
我々は,MLS,VoxLingua107,CommonVoiceといった大規模多言語データセットを用いて,我々のアプローチをテストする実験を行った。
論文 参考訳(メタデータ) (2023-12-18T06:40:24Z) - Visual Speech Recognition for Languages with Limited Labeled Data using
Automatic Labels from Whisper [96.43501666278316]
本稿では,複数の言語を対象とした強力な視覚音声認識(VSR)手法を提案する。
言語識別と音声認識の両方が可能なWhisperモデルを用いる。
自動ラベルで訓練されたVSRモデルと人称ラベルで訓練したVSRモデルの性能を比較することにより,人間対応ラベルと類似のVSR性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-15T16:53:01Z) - Robust Open-Set Spoken Language Identification and the CU MultiLang
Dataset [2.048226951354646]
オープンセット音声言語識別システムは、入力が元の言語を示さないことを検出できる。
我々は,MFCCとピッチ特徴を用いたオープンセット音声言語識別のための新しい手法を実装した。
我々は、訓練された言語で91.76%の精度を達成し、未知の言語に適応する能力を有する音声言語識別システムを提案する。
論文 参考訳(メタデータ) (2023-08-29T00:44:27Z) - Cross-lingual Dysarthria Severity Classification for English, Korean,
and Tamil [3.991584682799934]
本稿では,英語,韓国語,タミル語の言語間分類法を提案する。
音声品質,発音,韻律などの多様な音声次元から,30種類の特徴を抽出する。
3つの言語の特徴選択結果を比較することにより、共有された特徴の集合と特徴の集合を区別する。
論文 参考訳(メタデータ) (2022-09-26T18:28:15Z) - IndicSUPERB: A Speech Processing Universal Performance Benchmark for
Indian languages [16.121708272597154]
インド12言語における音声認識のためのIndicSUPERBベンチマークをリリースする。
一般的に使用されているベースラインベンチマークとともに、さまざまな自己教師付きモデルをトレーニングし、評価する。
言語固有の微調整モデルはほとんどのタスクのベースラインよりも正確であることを示す。
論文 参考訳(メタデータ) (2022-08-24T20:14:52Z) - Transducer-based language embedding for spoken language identification [38.60303603000269]
音響的特徴と言語的特徴は,音声言語識別作業において重要な手がかりである。
近年の先進的なLIDシステムは、言語的特徴符号化を欠いた音響的特徴を主に用いている。
本稿では,RNNトランスデューサモデルを言語埋め込みフレームワークに統合することにより,LIDタスクのための新しいトランスデューサベースの言語埋め込み手法を提案する。
論文 参考訳(メタデータ) (2022-04-08T07:23:43Z) - X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained
Language Models [103.75890012041366]
言語モデル(LM)は、事実の知識を捉えるのに驚くほど成功した。
しかし、LMの実際の表現能力の研究は、ほぼ間違いなく英語で行われている。
我々は23の語型的多様言語に対するクローゼスタイルプローブのベンチマークを作成する。
論文 参考訳(メタデータ) (2020-10-13T05:29:56Z) - Rnn-transducer with language bias for end-to-end Mandarin-English
code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。
我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。
これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文 参考訳(メタデータ) (2020-02-19T12:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。