論文の概要: Language identification as improvement for lip-based biometric visual
systems
- arxiv url: http://arxiv.org/abs/2302.13902v1
- Date: Mon, 27 Feb 2023 15:44:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 15:00:40.406134
- Title: Language identification as improvement for lip-based biometric visual
systems
- Title(参考訳): リップ型バイオメトリック視覚システムにおける言語識別の改善
- Authors: Lucia Cascone, Michele Nappi, Fabio Narducci
- Abstract要約: 本稿では,口唇運動に基づく視覚的(聴覚のない)識別システムの性能を高めるために,言語情報を軟式生体認証特性として用いる予備研究について述べる。
これらのデータの統合により,提案した視覚システムの識別性能が大幅に向上したことを報告した。
- 参考スコア(独自算出の注目度): 13.205817167773443
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Language has always been one of humanity's defining characteristics. Visual
Language Identification (VLI) is a relatively new field of research that is
complex and largely understudied. In this paper, we present a preliminary study
in which we use linguistic information as a soft biometric trait to enhance the
performance of a visual (auditory-free) identification system based on lip
movement. We report a significant improvement in the identification performance
of the proposed visual system as a result of the integration of these data
using a score-based fusion strategy. Methods of Deep and Machine Learning are
considered and evaluated. To the experimentation purposes, the dataset called
laBial Articulation for the proBlem of the spokEn Language rEcognition
(BABELE), consisting of eight different languages, has been created. It
includes a collection of different features of which the spoken language
represents the most relevant, while each sample is also manually labelled with
gender and age of the subjects.
- Abstract(参考訳): 言語は常に人類が定義する特徴の1つである。
視覚言語識別(VLI)は、比較的新しい研究分野であり、複雑で、ほとんど調査されていない。
本稿では,口唇運動に基づく視覚的(聴覚のない)識別システムの性能を高めるために,言語情報をソフトバイオメトリックな特徴として活用する予備研究について述べる。
スコアベースの融合戦略を用いて,これらのデータの統合により,提案する視覚システムの識別性能が大幅に向上したことを報告する。
深層学習と機械学習の手法を検討し評価する。
実験目的のために、8つの異なる言語からなるspokEn Language rEcognition (BABELE)のproBlemのためのLaBial Articulationと呼ばれるデータセットが作成された。
音声言語が最も関連性の高い特徴のコレクションを含み、各サンプルには、被験者の性別と年齢を手動でラベル付けする。
関連論文リスト
- Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。
その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-03-21T17:58:56Z) - Analysis of Visual Features for Continuous Lipreading in Spanish [0.0]
リップリーディングは、音声が利用できないときに音声を解釈することを目的とする複雑なタスクである。
そこで本稿では, 自然スペイン語における唇運動の特徴をとらえる上で, どちらが最適かを特定することを目的とした, 異なる音声視覚特徴の分析手法を提案する。
論文 参考訳(メタデータ) (2023-11-21T09:28:00Z) - Multimodal Modeling For Spoken Language Identification [57.94119986116947]
音声言語識別とは、ある発話中の音声言語を自動的に予測するタスクを指す。
本稿では,多モーダル音声言語識別手法であるMuSeLIを提案する。
論文 参考訳(メタデータ) (2023-09-19T12:21:39Z) - Label Aware Speech Representation Learning For Language Identification [49.197215416945596]
本稿では,自己指導型表現学習と事前学習タスクのための言語ラベル情報を組み合わせた新しいフレームワークを提案する。
このフレームワークは、ラベル認識音声表現(LASR)学習と呼ばれ、三重項に基づく目的関数を使用して、言語ラベルと自己教師付き損失関数を組み込む。
論文 参考訳(メタデータ) (2023-06-07T12:14:16Z) - Unravelling Interlanguage Facts via Explainable Machine Learning [10.71581852108984]
我々は、説明可能な機械学習アルゴリズムによって訓練されたNLI分類器の内部に焦点をあてる。
我々は、この視点を用いて、NLIと相補的なタスクの両方に対処し、テキストがネイティブまたは非ネイティブ話者によって書かれたかどうかを推測する。
話者のL1を最も示唆する2つの課題を解くのに最も有効な言語特性について検討する。
論文 参考訳(メタデータ) (2022-08-02T14:05:15Z) - XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems
to Improve Language Understanding [73.24847320536813]
本研究では,事前学習したマルチモーダル変換器から事前学習した言語エンコーダへの視覚情報の蒸留について検討する。
我々のフレームワークは,NLUの言語重み特性に適応するために学習目標を変更する一方で,視覚言語タスクにおけるクロスモーダルエンコーダの成功にインスパイアされている。
論文 参考訳(メタデータ) (2022-04-15T03:44:00Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - Neural Variational Learning for Grounded Language Acquisition [14.567067583556714]
本稿では,言語が特定の定義された用語のカテゴリを含まない視覚的知覚に基礎を置いている学習システムを提案する。
この生成手法は,低リソース環境下での視覚的カテゴリを事前に指定することなく,言語接地において有望な結果を示すことを示す。
論文 参考訳(メタデータ) (2021-07-20T20:55:02Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。