論文の概要: End-to-End Lip Reading in Romanian with Cross-Lingual Domain Adaptation
and Lateral Inhibition
- arxiv url: http://arxiv.org/abs/2310.04858v1
- Date: Sat, 7 Oct 2023 15:36:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 14:55:06.180480
- Title: End-to-End Lip Reading in Romanian with Cross-Lingual Domain Adaptation
and Lateral Inhibition
- Title(参考訳): 言語横断的ドメイン適応と側方抑制をともなうルーマニア人の終端唇読解
- Authors: Emilian-Claudiu M\u{a}nescu, R\u{a}zvan-Alexandru Sm\u{a}du,
Andrei-Marius Avram, Dumitru-Clementin Cercel, Florin Pop
- Abstract要約: 我々は、Wild LRRoと呼ばれる、表現不足の短いルーマニア語のデータセット上で、いくつかのアーキテクチャと最適化を解析する。
提案手法,すなわち,言語間ドメイン適応とラベルなしビデオを用いて,最先端の検索結果を得る。
また、神経阻害機構にインスパイアされた層を付加する性能も評価した。
- 参考スコア(独自算出の注目度): 2.839471733237535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lip reading or visual speech recognition has gained significant attention in
recent years, particularly because of hardware development and innovations in
computer vision. While considerable progress has been obtained, most models
have only been tested on a few large-scale datasets. This work addresses this
shortcoming by analyzing several architectures and optimizations on the
underrepresented, short-scale Romanian language dataset called Wild LRRo. Most
notably, we compare different backend modules, demonstrating the effectiveness
of adding ample regularization methods. We obtain state-of-the-art results
using our proposed method, namely cross-lingual domain adaptation and unlabeled
videos from English and German datasets to help the model learn
language-invariant features. Lastly, we assess the performance of adding a
layer inspired by the neural inhibition mechanism.
- Abstract(参考訳): 近年では、特にハードウェア開発やコンピュータビジョンの革新により、唇読みや視覚音声認識が注目されている。
かなりの進歩が得られたが、ほとんどのモデルは少数の大規模データセットでのみテストされている。
この研究は、Wild LRRoと呼ばれるルーマニアの短スケールのデータセットに基づいて、いくつかのアーキテクチャと最適化を分析することで、この欠点に対処する。
最も注目すべきは、異なるバックエンドモジュールを比較し、豊富な正規化メソッドを追加する効果を示しています。
提案手法,すなわち、言語間ドメイン適応と、英語とドイツ語のデータセットからの未ラベルビデオを用いて、モデルが言語不変の特徴を学習するのを助ける。
最後に,神経抑制機構にインスパイアされた層の追加性能を評価する。
関連論文リスト
- FUSE-ing Language Models: Zero-Shot Adapter Discovery for Prompt Optimization Across Tokenizers [55.2480439325792]
FUSEは、あるモデルのテキスト埋め込み空間から別のモデルへのマッピングを行うアダプタ層を、異なるトークン化器にまたがっても近似するアプローチである。
画像キャプションと感情に基づく画像キャプションのための視覚言語モデルと因果言語モデルに対する多目的最適化によるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-08-09T02:16:37Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Revisiting Neural Scaling Laws in Language and Vision [43.57394336742374]
我々は、最適なパラメータを報告するのではなく、外挿損失に基づくより厳密な方法論を論じる。
本稿では,学習曲線から法則パラメータのスケーリングを確実に推定する手法を提案する。
複数のドメインにまたがる幅広いアーキテクチャファミリにおいて,従来手法よりも高精度に外挿できることを実証した。
論文 参考訳(メタデータ) (2022-09-13T09:41:51Z) - Cross-Lingual Cross-Modal Retrieval with Noise-Robust Learning [25.230786853723203]
低リソース言語に対するノイズローバストな言語間クロスモーダル検索手法を提案する。
低リソース言語のための擬似並列文ペアを構築するために,機械翻訳を用いる。
ノイズロスのターゲット言語表現を学習するための多視点自己蒸留法を提案する。
論文 参考訳(メタデータ) (2022-08-26T09:32:24Z) - Meta-Learning and Self-Supervised Pretraining for Real World Image
Translation [5.469808405577674]
我々は,新しいマルチタスク・マルチショット画像生成ベンチマークを定式化するために,画像から画像への変換問題について検討する。
軽微な問題に対する基本点をいくつか提示し、異なるアプローチ間のトレードオフについて議論する。
論文 参考訳(メタデータ) (2021-12-22T14:48:22Z) - A Simple Long-Tailed Recognition Baseline via Vision-Language Model [92.2866546058082]
視覚の世界は自然にオープンクラスの長い尾の分布を示しており、現代の視覚システムには大きな課題をもたらしている。
視覚認識のための新しい経路におけるコントラスト言語事前学習の最近の進歩
我々は、長い尾の認識にコントラッシブな視覚言語モデルを活用するために、BALLADを提案する。
論文 参考訳(メタデータ) (2021-11-29T17:49:24Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Cross-lingual Approach to Abstractive Summarization [0.0]
言語間モデル転送は低リソース言語でうまく適用できる。
深層ニューラルネットワークとシークエンス・トゥ・シークエンスアーキテクチャに基づく事前学習型英語要約モデルを用いた。
対象言語データに異なる比率のモデルを開発し,微調整を行った。
論文 参考訳(メタデータ) (2020-12-08T09:30:38Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。