Fugu-MT 論文翻訳(概要): Modernizing Open-Set Speech Language Identification

論文の概要: Modernizing Open-Set Speech Language Identification

arxiv url: http://arxiv.org/abs/2205.10397v1
Date: Fri, 20 May 2022 18:28:16 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-24 14:16:26.526219
Title: Modernizing Open-Set Speech Language Identification
Title（参考訳）: オープンセット音声言語識別の近代化
Authors: Mustafa Eyceoz, Justin Lee, and Homayoon Beigi
Abstract要約: クローズドセット言語識別に2つの最新技術アプローチを適用することで、オープンセットタスクに取り組む。 MFCCによる入力特徴埋め込み、ログスペクトル特徴、ピッチの改善に加えて、オフ・オブ・セット言語検出の2つのアプローチを試みます。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While most modern speech Language Identification methods are closed-set, we want to see if they can be modified and adapted for the open-set problem. When switching to the open-set problem, the solution gains the ability to reject an audio input when it fails to match any of our known language options. We tackle the open-set task by adapting two modern-day state-of-the-art approaches to closed-set language identification: the first using a CRNN with attention and the second using a TDNN. In addition to enhancing our input feature embeddings using MFCCs, log spectral features, and pitch, we will be attempting two approaches to out-of-set language detection: one using thresholds, and the other essentially performing a verification task. We will compare both the performance of the TDNN and the CRNN, as well as our detection approaches.
Abstract（参考訳）: ほとんどの現代音声言語識別法はクローズドセットであるが,オープンセット問題に対して修正や適応が可能であるか確かめたい。オープンセット問題に切り替えると、ソリューションは、既知の言語オプションにマッチしない場合に、オーディオ入力を拒否する機能を提供します。クローズドセット言語識別に現代最先端の2つのアプローチを適用することで、オープンセットタスクに取り組む。 MFCC,ログスペクトル特徴,ピッチを用いた入力特徴埋め込みの強化に加えて,しきい値を用いた言語検出と,基本的に検証タスクを実行するための2つのアプローチを試みます。我々は,TDNNとCRNNの性能および検出手法の比較を行う。

関連論文リスト

OMNIGUARD: An Efficient Approach for AI Safety Moderation Across Modalities [54.152681077418805]
現在の検出アプローチは誤りがあり、特にモデル機能のミスマッチした一般化を利用する攻撃の影響を受けやすい。 OMNIGUARDは,言語やモダリティにまたがる有害なプロンプトを検出する手法である。提案手法は,多言語環境において最強のベースラインよりも11.57%,有害なプロンプト分類精度を向上する。
論文参考訳（メタデータ） (2025-05-29T05:25:27Z)
Enhancing Code-Switching ASR Leveraging Non-Peaky CTC Loss and Deep Language Posterior Injection [9.696145679371213]
多言語話者が会話中に言語を交互に切り替えるコードスイッチングは、エンドツーエンド(E2E)自動音声認識(ASR)システムに重大な課題をもたらす。まず、エンコーダの中間層に言語識別情報を組み込んで、より詳細な言語情報による出力埋め込みを強化することを目的としています。第二に、言語境界アライメント損失の新たな応用により、後続のASRモジュールは、言語後続の知識をより効果的に活用することができる。
論文参考訳（メタデータ） (2024-11-26T06:49:05Z)
OV-DINO: Unified Open-Vocabulary Detection with Language-Aware Selective Fusion [88.59397418187226]
我々はOV-DINOと呼ばれる新しいオープン語彙検出手法を提案する。言語対応の選択的融合を統一フレームワークに組み込んだ、さまざまな大規模データセットで事前トレーニングされている。提案するOV-DINOのオープン語彙検出ベンチマークにおける性能評価を行った。
論文参考訳（メタデータ） (2024-07-10T17:05:49Z)
Rapid Language Adaptation for Multilingual E2E Speech Recognition Using Encoder Prompting [45.161909551392085]
自己条件CTCフレームワーク内にエンコーダプロンプト技術を導入し、ゼロショット方式でCTCモデルの言語固有の適応を可能にする。提案手法は,低リソース言語では平均28%,低リソース言語では41%の誤差を著しく低減することを示した。
論文参考訳（メタデータ） (2024-06-18T13:38:58Z)
Checks and Strategies for Enabling Code-Switched Machine Translation [22.67264032644644]
コードスイッチングは多言語話者の間で共通する現象であり、単一の会話の文脈内で2つ以上の言語間の交替が発生する。この研究は、コードスイッチされたテキストを処理する多言語ニューラルネットワーク翻訳(NMT)モデルの能力について検討する。
論文参考訳（メタデータ） (2022-10-11T02:25:21Z)
LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文参考訳（メタデータ） (2022-06-05T04:03:12Z)
End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文参考訳（メタデータ） (2022-03-27T08:55:28Z)
Reducing language context confusion for end-to-end code-switching automatic speech recognition [50.89821865949395]
本稿では,E2E符号スイッチングASRモデルの多言語コンテキストの混同を低減するための言語関連アテンション機構を提案する。複数の言語のそれぞれの注意を計算することにより、豊かな単言語データから言語知識を効率的に伝達することができる。
論文参考訳（メタデータ） (2022-01-28T14:39:29Z)
Dyn-ASR: Compact, Multilingual Speech Recognition via Spoken Language and Accent Identification [0.013428344011390777]
エッジデバイス上での多言語音声認識を実現するための新しい手法を提案する。このアプローチでは、言語識別とアクセント識別の両方を使用して、複数の単言語ASRモデルの1つをオンザフライで選択する。認識性能と資源利用の両面での最初の結果は,他のソリューションが消費するメモリの1/12以下を用いて,我々のアプローチに期待できるものである。
論文参考訳（メタデータ） (2021-08-04T12:59:53Z)
Discriminative Nearest Neighbor Few-Shot Intent Detection by Transferring Natural Language Inference [150.07326223077405]
データ不足を緩和するためには、ほとんどショットラーニングが注目を集めている。深部自己注意を伴う識別的近傍分類を提示する。自然言語推論モデル(NLI)を変換することで識別能力を高めることを提案する。
論文参考訳（メタデータ） (2020-10-25T00:39:32Z)
Learning not to Discriminate: Task Agnostic Learning for Improving Monolingual and Code-switched Speech Recognition [12.354292498112347]
本稿では、ドメイン逆学習を用いてタスクモデルを訓練することにより、これまでの作業よりもさらに改善する。提案手法は,単語誤り率(WER)を3つの言語対に対して単言語およびコード切替テストセットで削減する。
論文参考訳（メタデータ） (2020-06-09T13:45:30Z)
Rnn-transducer with language bias for end-to-end Mandarin-English code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文参考訳（メタデータ） (2020-02-19T12:01:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。