論文の概要: Multilingual Audio-Visual Smartphone Dataset And Evaluation
- arxiv url: http://arxiv.org/abs/2109.04138v1
- Date: Thu, 9 Sep 2021 09:52:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-11 02:56:08.308258
- Title: Multilingual Audio-Visual Smartphone Dataset And Evaluation
- Title(参考訳): 多言語音声・視覚スマートフォンデータセットとその評価
- Authors: Hareesh Mandalapu, Aravinda Reddy P N, Raghavendra Ramachandra, K
Sreenivasa Rao, Pabitra Mitra, S R Mahadeva Prasanna, Christoph Busch
- Abstract要約: 最新の5つのスマートフォンで収集された音声・視覚スマートフォンのデータセットを提示する。
このデータセットでは、話者認識システムの言語依存の問題を含むために、3つの異なる言語が取得される。
また,ベンチマーク付生体認証システムの性能について報告する。
- 参考スコア(独自算出の注目度): 35.82191448400655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Smartphones have been employed with biometric-based verification systems to
provide security in highly sensitive applications. Audio-visual biometrics are
getting popular due to the usability and also it will be challenging to spoof
because of multi-modal nature. In this work, we present an audio-visual
smartphone dataset captured in five different recent smartphones. This new
dataset contains 103 subjects captured in three different sessions considering
the different real-world scenarios. Three different languages are acquired in
this dataset to include the problem of language dependency of the speaker
recognition systems. These unique characteristics of this dataset will pave the
way to implement novel state-of-the-art unimodal or audio-visual speaker
recognition systems. We also report the performance of the bench-marked
biometric verification systems on our dataset. The robustness of biometric
algorithms is evaluated towards multiple dependencies like signal noise,
device, language and presentation attacks like replay and synthesized signals
with extensive experiments. The obtained results raised many concerns about the
generalization properties of state-of-the-art biometrics methods in
smartphones.
- Abstract(参考訳): スマートフォンは、高度に敏感なアプリケーションにセキュリティを提供するために、生体認証システムに採用されている。
オーディオ・ビジュアルバイオメトリックスはユーザビリティのために人気を集めており、マルチモーダルな性質のため、spoofが難しいだろう。
本研究では,近年の5つのスマートフォンで収集された音声・視覚スマートフォンのデータセットについて述べる。
この新しいデータセットには、3つの異なるセッションでキャプチャされた103のサブジェクトが含まれている。
このデータセットでは、話者認識システムの言語依存の問題を含むために、3つの異なる言語が取得される。
このデータセットのユニークな特徴は、新しい最先端のユニモーダルまたはオーディオ・ビジュアル・スピーカー認識システムの実装の道を開くだろう。
また,ベンチマーク付生体認証システムの性能について報告する。
バイオメトリックアルゴリズムのロバスト性は、信号ノイズ、デバイス、言語、プレゼンテーションアタック、リプレイや合成信号などの複数の依存性に対して広範な実験によって評価される。
その結果、スマートフォンにおける最先端バイオメトリックスの一般化特性について多くの懸念が持ち上がった。
関連論文リスト
- SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Developing Acoustic Models for Automatic Speech Recognition in Swedish [6.5458610824731664]
本稿では,トレーニング可能なシステムを用いた自動連続音声認識について述べる。
この研究の目的はスウェーデン語話者のための音響モデルを構築することである。
論文 参考訳(メタデータ) (2024-04-25T12:03:14Z) - Probing the Information Encoded in Neural-based Acoustic Models of
Automatic Speech Recognition Systems [7.207019635697126]
本稿では,自動音声認識音響モデル(AM)における情報の位置と位置を決定することを目的とする。
話者検証,音響環境分類,性別分類,テンポ歪検出システム,音声感情・感情識別について実験を行った。
分析の結果、ニューラルベースAMは驚くほど音素認識と無関係に思える異種情報を持っていることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:43:53Z) - Language identification as improvement for lip-based biometric visual
systems [13.205817167773443]
本稿では,口唇運動に基づく視覚的(聴覚のない)識別システムの性能を高めるために,言語情報を軟式生体認証特性として用いる予備研究について述べる。
これらのデータの統合により,提案した視覚システムの識別性能が大幅に向上したことを報告した。
論文 参考訳(メタデータ) (2023-02-27T15:44:24Z) - ESB: A Benchmark For Multi-Domain End-to-End Speech Recognition [100.30565531246165]
音声認識システムはデータセット固有のチューニングを必要とする。
このチューニング要件は、他のデータセットやドメインへの一般化に失敗したシステムにつながる可能性がある。
本稿では,1つの自動音声認識システムの性能を評価するために,エンド・ツー・エンド音声ベンチマーク(ESB)を提案する。
論文 参考訳(メタデータ) (2022-10-24T15:58:48Z) - Mobile Behavioral Biometrics for Passive Authentication [65.94403066225384]
本研究は, 単モーダルおよび多モーダルな行動的生体特性の比較分析を行った。
HuMIdbは、最大かつ最も包括的なモバイルユーザインタラクションデータベースである。
我々の実験では、最も識別可能な背景センサーは磁力計であり、タッチタスクではキーストロークで最良の結果が得られる。
論文 参考訳(メタデータ) (2022-03-14T17:05:59Z) - Discovering Phonetic Inventories with Crosslingual Automatic Speech
Recognition [71.49308685090324]
本稿では,未知言語における音声認識における異なる要因(モデルアーキテクチャ,音韻モデル,音声表現の種類)の影響について検討する。
独特な音、類似した音、トーン言語は、音声による在庫発見の大きな課題である。
論文 参考訳(メタデータ) (2022-01-26T22:12:55Z) - Tusom2021: A Phonetically Transcribed Speech Dataset from an Endangered
Language for Universal Phone Recognition Experiments [7.286387368812729]
本稿では,絶滅危惧国タングク語東トゥーソム語で2255発の発声を公に書き起こしたコーパスを提示する。
データセットは音素ではなく電話の点で転写されるため、多くの大きなデータセットよりも普遍的な電話認識システムに適しています。
論文 参考訳(メタデータ) (2021-04-02T00:26:10Z) - Acoustics Based Intent Recognition Using Discovered Phonetic Units for
Low Resource Languages [51.0542215642794]
本稿では,検出された音素単位を意図分類に用いる新しい音響に基づく意図認識システムを提案する。
我々は,2つの言語群 – インディカル言語とロマンス言語 – に対する2つの異なる意図認識タスクの結果を提示する。
論文 参考訳(メタデータ) (2020-11-07T00:35:31Z) - Few Shot Text-Independent speaker verification using 3D-CNN [0.0]
我々は,ごく少数の学習データを用いて話者の身元を検証するための新しい手法を提案してきた。
VoxCeleb1データセットで行った実験によると、非常に少ないデータでトレーニングしても、提案されたモデルの精度は、テキストに依存しない話者検証において、アートモデルの状態に近い。
論文 参考訳(メタデータ) (2020-08-25T15:03:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。