Fugu-MT 論文翻訳(概要): XNOR-FORMER: Learning Accurate Approximations in Long Speech Transformers

論文の概要: XNOR-FORMER: Learning Accurate Approximations in Long Speech Transformers

arxiv url: http://arxiv.org/abs/2210.16643v1
Date: Sat, 29 Oct 2022 16:21:30 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-01 15:30:27.499351
Title: XNOR-FORMER: Learning Accurate Approximations in Long Speech Transformers
Title（参考訳）: XNOR-FORMER:Long Speech Transformerにおける正確な近似学習
Authors: Roshan Sharma and Bhiksha Raj
Abstract要約: 我々は,キークエリ生成物の性質を自己注意内で調べて,新しい線形変換器を開発した。本モデルは,音声認識と音声要約における技術アプローチの状況よりも優れる。
参考スコア（独自算出の注目度）: 24.442232590907143
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Transformers are among the state of the art for many tasks in speech, vision, and natural language processing, among others. Self-attentions, which are crucial contributors to this performance have quadratic computational complexity, which makes training on longer input sequences challenging. Prior work has produced state-of-the-art transformer variants with linear attention, however, current models sacrifice performance to achieve efficient implementations. In this work, we develop a novel linear transformer by examining the properties of the key-query product within self-attentions. Our model outperforms state of the art approaches on speech recognition and speech summarization, resulting in 1 % absolute WER improvement on the Librispeech-100 speech recognition benchmark and a new INTERVIEW speech recognition benchmark, and 5 points on ROUGE for summarization with How2.
Abstract（参考訳）: トランスフォーマーは、言語、視覚、自然言語処理などの多くのタスクにおいて、最先端の最先端技術である。この性能に重要な貢献者である自己注意は2次計算の複雑さを持ち、長い入力シーケンスのトレーニングを困難にしている。先行研究は最先端の変圧器を線形に注意して製造したが、現在のモデルは効率的な実装を達成するために性能を犠牲にしている。本研究では,キークエリ生成物の性質を自己注意で調べ,線形変換器を開発した。提案手法は, 音声認識と音声要約の手法により, Librispeech-100 音声認識ベンチマークと新たなInterVIEW 音声認識ベンチマークにおいて 1 % の絶対 WER 改善が達成され, ROUGE では How2 との要約が 5 ポイント向上した。

関連論文リスト

SViQA: A Unified Speech-Vision Multimodal Model for Textless Visual Question Answering [0.0]
テキストの書き起こしなしに音声質問を処理する統合音声ビジョンモデルであるSViQAを紹介する。 LLaVAアーキテクチャに基づいて、我々のフレームワークは2つの重要なイノベーションを通じて聴覚と視覚のモダリティを橋渡しします。 SBVQAベンチマークの大規模な実験結果は、提案したSViQAの最先端性能を実証している。
論文参考訳（メタデータ） (2025-04-01T07:15:32Z)
Advancements in Natural Language Processing: Exploring Transformer-Based Architectures for Text Understanding [10.484788943232674]
本稿では,BERT や GPT などのトランスフォーマーモデルの進歩を考察し,テキスト理解タスクにおける優れた性能に着目した。その結果、GLUEやSQuADのようなベンチマークでは、高い計算コストなどの課題はあるものの、F1スコアが90%を超えている。
論文参考訳（メタデータ） (2025-03-26T04:45:33Z)
LipGen: Viseme-Guided Lip Video Generation for Enhancing Visual Speech Recognition [12.336693356113308]
モデルロバスト性を改善するための新しいフレームワークであるLipGenを提案する。注意機構を兼ね備えたビセメ分類を補助タスクとして導入する。本手法は,野生(LRW)データセットにおける唇読解における現在の最先端技術と比較して,優れた性能を示す。
論文参考訳（メタデータ） (2025-01-08T00:52:19Z)
V2SFlow: Video-to-Speech Generation with Speech Decomposition and Rectified Flow [57.51550409392103]
本稿では,V2SFlowについて紹介する。V2SFlowは,サイレント・トーキング・フェイス・ビデオから直接自然で分かりやすい音声を生成するために設計された,新しいビデオ音声合成(V2S)フレームワークである。これらの課題に対処するため、音声信号を管理可能な部分空間に分解し、それぞれ異なる音声属性を表現し、視覚入力から直接予測する。これらの予測属性からコヒーレントでリアルな音声を生成するために,Transformerアーキテクチャ上に構築された正流整合デコーダを用いる。
論文参考訳（メタデータ） (2024-11-29T05:55:20Z)
ASiT: Local-Global Audio Spectrogram vIsion Transformer for Event Classification [42.95038619688867]
ASiTは、グループマスク付きモデル学習と自己蒸留を用いて、局所的およびグローバルな文脈情報をキャプチャする、新しい自己教師型学習フレームワークである。我々は、音声イベント分類、キーワードスポッティング、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
論文参考訳（メタデータ） (2022-11-23T18:21:09Z)
Lip-Listening: Mixing Senses to Understand Lips using Cross Modality Knowledge Distillation for Word-Based Models [0.03499870393443267]
この研究は、最近の最先端の単語ベースのリリーディングモデルに基づいて、シーケンスレベルとフレームレベルの知識蒸留(KD)をシステムに統合する。本稿では,音声音声認識システムから視覚音声認識システムへ音声認識機能を伝達する手法を提案する。
論文参考訳（メタデータ） (2022-06-05T15:47:54Z)
Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文参考訳（メタデータ） (2022-05-02T17:59:02Z)
Robust Disentangled Variational Speech Representation Learning for Zero-shot Voice Conversion [34.139871476234205]
自己教師付き不協和音声表現学習の新たな視点からゼロショット音声変換について検討する。任意の話者埋め込みとコンテンツ埋め込みとを逐次変分オートエンコーダ(VAE)デコーダに供給してゼロショット音声変換を行う。 TIMIT と VCTK のデータセットでは,話者の埋め込みとコンテンツ埋め込みに関する話者検証 (SV) と主観的評価,すなわち音声の自然性や類似性を両立させ,ノイズのある音源/ターゲット発話においても頑健である。
論文参考訳（メタデータ） (2022-03-30T23:03:19Z)
Self-supervised Learning with Random-projection Quantizer for Speech Recognition [51.24368930992091]
音声認識のためのシンプルで効果的な自己教師型学習手法を提案する。このアプローチは、離散ラベルの形で、マスキングされた音声信号を予測するモデルを学ぶ。非ストリーミングモデルを用いた自己教師付き学習を用いて、従来の作業と同じような単語エラー率を達成する。
論文参考訳（メタデータ） (2022-02-03T21:29:04Z)
WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。 WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文参考訳（メタデータ） (2021-10-26T17:55:19Z)
Sub-word Level Lip Reading With Visual Attention [88.89348882036512]
我々は、リップリーディングで遭遇するユニークな課題に注目し、調整されたソリューションを提案する。公開データセット上でのトレーニングにおいて,挑戦的なLSS2とLSS3ベンチマークの最先端結果を得る。我々の最良のモデルはLRS2データセットで22.6%のワードエラー率を達成する。
論文参考訳（メタデータ） (2021-10-14T17:59:57Z)
VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文参考訳（メタデータ） (2021-06-18T13:50:38Z)
End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文参考訳（メタデータ） (2021-02-12T18:00:08Z)
Self-Supervised learning with cross-modal transformers for emotion recognition [20.973999078271483]
自己教師型学習は、音声や自然言語のようなドメインでラベル付きデータセットが限定されたタスクの改善を示している。本研究では,マルチモーダルアプリケーションに自己指導型トレーニングを拡張する。
論文参考訳（メタデータ） (2020-11-20T21:38:34Z)
Investigation of Speaker-adaptation methods in Transformer based ASR [8.637110868126548]
本稿では,トランスフォーマモデルを用いて音声認識性能の向上を図りながら,エンコーダ入力に話者情報を組み込む方法について検討する。話者情報を各話者に対する話者埋め込み形式で提示する。モデルに話者埋め込みを組み込むことにより,ベースライン上の単語誤り率を改善する。
論文参考訳（メタデータ） (2020-08-07T16:09:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。