論文の概要: Mere account mein kitna balance hai? -- On building voice enabled
Banking Services for Multilingual Communities
- arxiv url: http://arxiv.org/abs/2010.16411v1
- Date: Fri, 9 Oct 2020 01:20:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 05:41:09.815399
- Title: Mere account mein kitna balance hai? -- On building voice enabled
Banking Services for Multilingual Communities
- Title(参考訳): 単なる説明は、kitna balancehai?
--多言語コミュニティのための音声対応銀行サービスの構築について
- Authors: Akshat Gupta, Sai Krishna Rallabandi and Alan W Black
- Abstract要約: 我々は,多言語社会のための音声対応型銀行サービスの構築に向けた最初の取り組みについて紹介する。
コードミキシング(Code Mixing)は、ある言語からの語彙項目が別の言語の発話に埋め込まれる現象である。
音声に基づく意図認識システムを構築するための様々な訓練戦略について検討する。
- 参考スコア(独自算出の注目度): 47.955173277834795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tremendous progress in speech and language processing has brought language
technologies closer to daily human life. Voice technology has the potential to
act as a horizontal enabling layer across all aspects of digitization. It is
especially beneficial to rural communities in scenarios like a pandemic. In
this work we present our initial exploratory work towards one such direction --
building voice enabled banking services for multilingual societies. Speech
interaction for typical banking transactions in multilingual communities
involves the presence of filled pauses and is characterized by Code Mixing.
Code Mixing is a phenomenon where lexical items from one language are embedded
in the utterance of another. Therefore speech systems deployed for banking
applications should be able to process such content. In our work we investigate
various training strategies for building speech based intent recognition
systems. We present our results using a Naive Bayes classifier on approximate
acoustic phone units using the Allosaurus library.
- Abstract(参考訳): 音声と言語処理の飛躍的な進歩により、言語技術は日々の生活に近づいた。
音声技術は、デジタル化のあらゆる側面を横切る水平対応層として機能する可能性を秘めている。
特にパンデミックのようなシナリオで農村社会にとって有益である。
本研究は,多言語社会のための音声対応型銀行サービスの構築に向けた最初の探索的取り組みを示す。
多言語コミュニティにおける一般的な銀行取引の音声対話には、コードミキシングが特徴である。
コード混合は、ある言語からの語彙項目が他の言語の発話に埋め込まれる現象である。
したがって、銀行アプリケーション用にデプロイされた音声システムは、そのようなコンテンツを処理できるべきである。
本研究では,音声に基づく意図認識システム構築のための様々な学習戦略について検討する。
本研究は,アロサウルスライブラリーを用いた近似音響電話ユニットのNaive Bayes分類器を用いて行った。
関連論文リスト
- Literary and Colloquial Dialect Identification for Tamil using Acoustic Features [0.0]
音声技術は、言語の様々な方言が絶滅しないようにする役割を担っている。
現在の研究は、人気のある2つのタミル方言と広く分類されたタミル方言を識別する方法を提案する。
論文 参考訳(メタデータ) (2024-08-27T09:00:27Z) - Seamless: Multilingual Expressive and Streaming Speech Translation [71.12826355107889]
本稿では,エンドツーエンドの表現型および多言語翻訳をストリーミング形式で実現するモデル群を紹介する。
まず,多言語およびマルチモーダルのSeamlessM4Tモデル-SeamlessM4T v2の改良版をコントリビュートする。
SeamlessExpressiveとSeamlessStreamingの主なコンポーネントをまとめてSeamlessを作ります。
論文 参考訳(メタデータ) (2023-12-08T17:18:42Z) - TRAVID: An End-to-End Video Translation Framework [1.6131714685439382]
本稿では、音声言語を翻訳するだけでなく、翻訳された音声と話者の唇の動きを同期するエンドツーエンドのビデオ翻訳システムを提案する。
本システムは,インド諸言語における教育講義の翻訳に重点を置いており,低リソースのシステム設定においても有効であるように設計されている。
論文 参考訳(メタデータ) (2023-09-20T14:13:05Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Talking Face Generation with Multilingual TTS [0.8229645116651871]
音声合成システムと音声合成システムを組み合わせたシステムを提案する。
本システムは,話者の発声性を保ちながら,自然な多言語音声を合成することができる。
デモでは、事前処理ステージに翻訳APIを追加して、ニューラルダバーの形式で提示しています。
論文 参考訳(メタデータ) (2022-05-13T02:08:35Z) - Cross-lingual Transfer for Speech Processing using Acoustic Language
Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。
現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。
本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T01:55:17Z) - Acoustics Based Intent Recognition Using Discovered Phonetic Units for
Low Resource Languages [51.0542215642794]
本稿では,検出された音素単位を意図分類に用いる新しい音響に基づく意図認識システムを提案する。
我々は,2つの言語群 – インディカル言語とロマンス言語 – に対する2つの異なる意図認識タスクの結果を提示する。
論文 参考訳(メタデータ) (2020-11-07T00:35:31Z) - CSTNet: Contrastive Speech Translation Network for Self-Supervised
Speech Representation Learning [11.552745999302905]
7000の言語のうち、半数以上が絶滅の危機にさらされている。
音声に対応するテキスト翻訳は比較的容易である。
音声から言語表現を抽出できる畳み込みニューラルネットワークオーディオエンコーダを構築する。
論文 参考訳(メタデータ) (2020-06-04T12:21:48Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。