論文の概要: Fine-grained Language Identification with Multilingual CapsNet Model
- arxiv url: http://arxiv.org/abs/2007.06078v1
- Date: Sun, 12 Jul 2020 20:01:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 06:05:40.390281
- Title: Fine-grained Language Identification with Multilingual CapsNet Model
- Title(参考訳): 多言語capsnetモデルによるきめ細かい言語識別
- Authors: Mudit Verma, Arun Balaji Buduru
- Abstract要約: 多言語コンテンツの生成と消費の爆発があります。
リアルタイムおよびきめ細かいコンテンツ分析サービスの必要性が高まっている。
音声言語検出の現在の技術は、これらの前線の1つに欠けている可能性がある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to a drastic improvement in the quality of internet services worldwide,
there is an explosion of multilingual content generation and consumption. This
is especially prevalent in countries with large multilingual audience, who are
increasingly consuming media outside their linguistic familiarity/preference.
Hence, there is an increasing need for real-time and fine-grained content
analysis services, including language identification, content transcription,
and analysis. Accurate and fine-grained spoken language detection is an
essential first step for all the subsequent content analysis algorithms.
Current techniques in spoken language detection may lack on one of these
fronts: accuracy, fine-grained detection, data requirements, manual effort in
data collection \& pre-processing. Hence in this work, a real-time language
detection approach to detect spoken language from 5 seconds' audio clips with
an accuracy of 91.8\% is presented with exiguous data requirements and minimal
pre-processing. Novel architectures for Capsule Networks is proposed which
operates on spectrogram images of the provided audio snippets. We use previous
approaches based on Recurrent Neural Networks and iVectors to present the
results. Finally we show a ``Non-Class'' analysis to further stress on why
CapsNet architecture works for LID task.
- Abstract(参考訳): 世界中のインターネットサービスの質が劇的に向上しているため、多言語コンテンツの生成と消費が急増している。
これは多言語オーディエンスを持つ国では特に一般的であり、言語的親しみ/嗜好の外でメディアを消費する傾向にある。
したがって、言語識別、コンテンツの書き起こし、分析など、リアルタイムおよびきめ細かいコンテンツ分析サービスの必要性が高まっている。
精密かつきめ細かな音声言語検出は、その後のすべてのコンテンツ分析アルゴリズムにとって重要な第一歩である。
音声言語検出の現在の技術は、正確さ、きめ細かい検出、データ要求、データ収集および前処理における手作業など、これらの面で欠落している可能性がある。
そこで本研究では、5秒の音声クリップから91.8\%の精度で音声言語を検出するためのリアルタイム言語検出手法として,膨大なデータ要求と最小限の事前処理を提示する。
提供される音声スニペットのスペクトログラム画像を利用する新しいCapsule Networksアーキテクチャを提案する。
従来のアプローチでは,反復ニューラルネットワークとイベクタを用いて結果を提示する。
最後に、CapsNetアーキテクチャがなぜ LID タスクで機能するのかをさらに強調するために ``Non-Class'' 分析を示す。
関連論文リスト
- Bridging Language Gaps in Audio-Text Retrieval [28.829775980536574]
本稿では,多言語テキストエンコーダ(SONAR)を用いた言語拡張 (LE) を提案し,テキストデータを言語固有の情報で符号化する。
我々は,一貫したアンサンブル蒸留(CED)の適用により,オーディオエンコーダを最適化し,可変長音声テキスト検索のサポートを強化した。
提案手法は,AudioCaps や Clotho などの一般的なデータセット上でのSOTA (State-of-the-art) の性能を示す,英語の音声テキスト検索に優れている。
論文 参考訳(メタデータ) (2024-06-11T07:12:12Z) - Towards a Deep Understanding of Multilingual End-to-End Speech
Translation [52.26739715012842]
我々は22言語以上で訓練された多言語エンドツーエンド音声翻訳モデルで学習した表現を解析する。
我々は分析から3つの大きな発見を得た。
論文 参考訳(メタデータ) (2023-10-31T13:50:55Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Adapting Multilingual Speech Representation Model for a New,
Underresourced Language through Multilingual Fine-tuning and Continued
Pretraining [2.3513645401551333]
既存の多言語wav2vec 2.0モデルを新しい言語に適用する可能性を検討する。
この結果から, 継続事前学習がwav2vec 2.0モデルを新しい言語に適応させる最も効果的な方法であることが示唆された。
関連言語の種類や類似した音韻特性を持つ非関連言語で事前訓練されたモデルが利用可能である場合,その言語からの付加データを用いた多言語微調整は,音声認識性能に肯定的な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-01-18T03:57:53Z) - Separate What You Describe: Language-Queried Audio Source Separation [53.65665794338574]
言語問合せ音声ソース分離(LASS)の課題について紹介する。
LASSは、ターゲットソースの自然言語クエリに基づいて、ターゲットソースをオーディオミックスから分離することを目的としている。
本稿では,音響情報と言語情報を協調処理するエンドツーエンドニューラルネットワークLASS-Netを提案する。
論文 参考訳(メタデータ) (2022-03-28T23:47:57Z) - ADIMA: Abuse Detection In Multilingual Audio [28.64185949388967]
音声テキストにおける乱用コンテンツ検出は、音声認識(ASR)を実行し、自然言語処理の進歩を活用することで対処することができる。
ADIMAは,言語学的に多様であり,倫理的にも特徴的であり,注釈付きかつバランスの取れた多言語多義性検出音声データセットである。
論文 参考訳(メタデータ) (2022-02-16T11:09:50Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Transferring Knowledge Distillation for Multilingual Social Event
Detection [42.663309895263666]
最近発表されたグラフニューラルネットワーク(GNN)は、ソーシャルイベント検出タスクにおける有望なパフォーマンスを示している。
本稿では,多言語データストリーム中の事象を検出するために,言語間単語埋め込みを組み込んだGNNを提案する。
合成データセットと実世界のデータセットの両方の実験では、多言語データとトレーニングサンプルが不足している言語の両方において、検出に非常に効果的なフレームワークが示されている。
論文 参考訳(メタデータ) (2021-08-06T12:38:42Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。