論文の概要: Disentangling Homophemes in Lip Reading using Perplexity Analysis
- arxiv url: http://arxiv.org/abs/2012.07528v1
- Date: Sat, 28 Nov 2020 12:12:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-19 19:29:01.504711
- Title: Disentangling Homophemes in Lip Reading using Perplexity Analysis
- Title(参考訳): パープレキシティ分析を用いた唇読解におけるホモフェムの分離
- Authors: Souheil Fenghour, Daqing Chen, Kun Guo, Perry Xiao
- Abstract要約: 本稿では,ジェネレーティブ・プレトレーニング・トランスの新しい応用法を提案する。
ヴィセムの形で視覚音声を、単語や文の形で言語に変換する言語モデルとして機能する。
ネットワークは最適なパープレキシティを探索して、ビセメ・ツー・ワードマッピングを実行する。
- 参考スコア(独自算出の注目度): 10.262299768603894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of automated lip reading using visemes as a classification
schema has achieved less success compared with the use of ASCII characters and
words largely due to the problem of different words sharing identical visemes.
The Generative Pre-Training transformer is an effective autoregressive language
model used for many tasks in Natural Language Processing, including sentence
prediction and text classification.
This paper proposes a new application for this model and applies it in the
context of lip reading, where it serves as a language model to convert visual
speech in the form of visemes, to language in the form of words and sentences.
The network uses the search for optimal perplexity to perform the
viseme-to-word mapping and is thus a solution to the one-to-many mapping
problem that exists whereby various words that sound different when spoken look
identical. This paper proposes a method to tackle the one-to-many mapping
problem when performing automated lip reading using solely visual cues in two
separate scenarios: the first scenario is where the word boundary, that is, the
beginning and the ending of a word, is unknown; and the second scenario is
where the boundary is known.
Sentences from the benchmark BBC dataset "Lip Reading Sentences in the
Wild"(LRS2), are classified with a character error rate of 10.7% and a word
error rate of 18.0%. The main contribution of this paper is to propose a method
of predicting words through the use of perplexity analysis when only visual
cues are present, using an autoregressive language model.
- Abstract(参考訳): 分類スキーマとしてvisemeを用いた自動口唇読解の性能は,同一のvisemeを共有する単語が異なるため,ascii文字や単語を用いた場合に比べ,成功度が低かった。
Generative Pre-Training Transformerは、自然言語処理における多くのタスクに使用される効果的な自己回帰言語モデルである。
本稿では,このモデルに対する新しい応用法を提案し,口唇読解の文脈で適用し,ビセム形式での視覚音声を単語や文形式での言語に変換する言語モデルとして機能する。
このネットワークは、最適なパープレキシティの探索を用いて、ビセメ・ツー・ワードマッピングを実行し、音声が同一に見えると異なる様々な単語が存在する一対多のマッピング問題に対する解決策となる。
本稿では,単語境界,すなわち単語の始終と終末が不明な場合と,境界が分かっている場合の2つのシナリオにおいて,視覚的な手がかりのみを用いて口唇の自動読解を行う場合の1対1のマッピング問題に対処する方法を提案する。
BBCのベンチマークデータセット "Lip Reading Sentences in the Wild" (LRS2) からの文章は、文字エラー率10.7%、単語エラー率18.0%で分類されている。
本論文の主な貢献は,自己回帰言語モデルを用いて,視覚手がかりのみが存在する場合のパープレキシティ分析を用いて単語を予測する手法を提案することである。
関連論文リスト
- CAST: Corpus-Aware Self-similarity Enhanced Topic modelling [16.562349140796115]
CAST: Corpus-Aware Self-similarity Enhanced Topic modelling, a novel topic modelling methodを紹介する。
機能的単語が候補話題語として振る舞うのを防ぐための効果的な指標として自己相似性を見出した。
提案手法は,生成したトピックの一貫性と多様性,およびノイズの多いデータを扱うトピックモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-19T15:27:11Z) - Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。
ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-23T06:11:50Z) - Is it an i or an l: Test-time Adaptation of Text Line Recognition Models [9.149602257966917]
テスト期間中にテキスト行認識モデルを適用する問題について紹介する。
本稿では,光学モデルの更新に言語モデルからのフィードバックを利用する反復的自己学習手法を提案する。
実験の結果,提案手法は文字誤り率を最大8%向上させることができた。
論文 参考訳(メタデータ) (2023-08-29T05:44:00Z) - Integrating Bidirectional Long Short-Term Memory with Subword Embedding
for Authorship Attribution [2.3429306644730854]
マニフォールド語に基づくスタイリスティックマーカーは、著者帰属の本質的な問題に対処するために、ディープラーニング手法でうまく使われてきた。
提案手法は,CCAT50,IMDb62,Blog50,Twitter50の公営企業における最先端手法に対して実験的に評価された。
論文 参考訳(メタデータ) (2023-06-26T11:35:47Z) - Improving Contextual Recognition of Rare Words with an Alternate
Spelling Prediction Model [0.0]
Earnings21データセットに付随するコンテキストバイアスリストをリリースします。
2つの異なる復号アルゴリズムに適用した浅層融合文脈偏差の計算結果を示す。
稀な単語のリコールを34.7%改善するスペル予測モデルを提案する。
論文 参考訳(メタデータ) (2022-09-02T19:30:16Z) - Sub-word Level Lip Reading With Visual Attention [88.89348882036512]
我々は、リップリーディングで遭遇するユニークな課題に注目し、調整されたソリューションを提案する。
公開データセット上でのトレーニングにおいて,挑戦的なLSS2とLSS3ベンチマークの最先端結果を得る。
我々の最良のモデルはLRS2データセットで22.6%のワードエラー率を達成する。
論文 参考訳(メタデータ) (2021-10-14T17:59:57Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - ShufText: A Simple Black Box Approach to Evaluate the Fragility of Text
Classification Models [0.0]
CNN、LSTM、Transformersに基づくディープラーニングアプローチは、テキスト分類における事実上のアプローチである。
これらのシステムは、分類に有用なテキストに現れる重要な単語に過度に依存していることを示す。
論文 参考訳(メタデータ) (2021-01-30T15:18:35Z) - Match-Ignition: Plugging PageRank into Transformer for Long-form Text
Matching [66.71886789848472]
実効性と効率性に対処する新しい階層型ノイズフィルタリングモデルであるMatch-Ignitionを提案する。
基本的なアイデアは、よく知られたPageRankアルゴリズムをTransformerに接続し、文と単語レベルの騒々しい情報を識別およびフィルタリングすることです。
文が長文の基本単位であるため、ノイズの多い文はたいてい簡単に検出できるので、PageRankを直接使用してそのような情報をフィルタリングする。
論文 参考訳(メタデータ) (2021-01-16T10:34:03Z) - NLP-CIC @ DIACR-Ita: POS and Neighbor Based Distributional Models for
Lexical Semantic Change in Diachronic Italian Corpora [62.997667081978825]
本稿では,イタリア語に対する教師なし語彙意味変化のシステムと知見について述べる。
その課題は、対象の単語が時間とともにその意味を進化させたかどうかを判断することであり、それは2つの時間固有のデータセットからの原文のみに依存する。
本研究では,各期間に対象単語を表す2つのモデルを提案し,しきい値と投票方式を用いて変化単語を予測する。
論文 参考訳(メタデータ) (2020-11-07T11:27:18Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。