論文の概要: Warped Language Models for Noise Robust Language Understanding
- arxiv url: http://arxiv.org/abs/2011.01900v1
- Date: Tue, 3 Nov 2020 18:26:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 03:51:09.910037
- Title: Warped Language Models for Noise Robust Language Understanding
- Title(参考訳): 雑音ロバスト言語理解のためのワープ言語モデル
- Authors: Mahdi Namazifar, Gokhan Tur, Dilek Hakkani T\"ur
- Abstract要約: Masked Language Models (MLM) は、与えられた文の空白をマスク付きトークンで埋める自己教師型ニューラルネットワークである。
本稿では,WLM上に構築された自然言語理解システムが,対話型言語よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 11.017026606760728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked Language Models (MLM) are self-supervised neural networks trained to
fill in the blanks in a given sentence with masked tokens. Despite the
tremendous success of MLMs for various text based tasks, they are not robust
for spoken language understanding, especially for spontaneous conversational
speech recognition noise. In this work we introduce Warped Language Models
(WLM) in which input sentences at training time go through the same
modifications as in MLM, plus two additional modifications, namely inserting
and dropping random tokens. These two modifications extend and contract the
sentence in addition to the modifications in MLMs, hence the word "warped" in
the name. The insertion and drop modification of the input text during training
of WLM resemble the types of noise due to Automatic Speech Recognition (ASR)
errors, and as a result WLMs are likely to be more robust to ASR noise. Through
computational results we show that natural language understanding systems built
on top of WLMs perform better compared to those built based on MLMs, especially
in the presence of ASR errors.
- Abstract(参考訳): Masked Language Models (MLM) は、与えられた文の空白をマスク付きトークンで埋めるように訓練された自己教師型ニューラルネットワークである。
様々なテキストベースのタスクにおいてMLMが驚くほど成功したにもかかわらず、言語理解、特に自然発声音声認識の雑音に対して堅牢ではない。
この作業では、トレーニング時の入力文がMLMと同じ修正を経て、ランダムトークンの挿入とドロップという2つの追加的な修正を行うWLM(Warped Language Models)を導入しました。
これらの2つの修正は、MLMの修正に加えて文を拡張して収縮させるため、名前の「ウォープ」が用いられる。
WLMのトレーニング中の入力テキストの挿入とドロップ修正は、自動音声認識(ASR)エラーによるノイズの種類に似ており、その結果、WLMはASRノイズに対してより堅牢である可能性が高い。
計算結果から,WLM上に構築された自然言語理解システムは,特にASRエラーの存在下では,MLMをベースとしたシステムよりも優れていることを示す。
関連論文リスト
- Which Syntactic Capabilities Are Statistically Learned by Masked
Language Models for Code? [51.29970742152668]
精度に基づく測定に依存することで、モデルの能力が過大評価される可能性があることを強調する。
これらの問題に対処するために,SyntaxEval in Syntactic Capabilitiesというテクニックを導入する。
論文 参考訳(メタデータ) (2024-01-03T02:44:02Z) - Loss Masking Is Not Needed in Decoder-only Transformer for
Discrete-token-based ASR [58.136778669618096]
統一音声テキストモデルは、様々な音声タスクにおいて顕著な性能を達成した。
テキストに似た自己回帰的な方法で音声トークンをモデル化することを提案する。
入力音声トークンに従来のクロスエントロピー損失を適用することは、ASRの性能を常に向上させるものではない。
論文 参考訳(メタデータ) (2023-11-08T08:45:14Z) - SALM: Speech-augmented Language Model with In-context Learning for
Speech Recognition and Translation [26.778332992311043]
本稿では,エム・マルチタスクとエム・イン・コンテクスト学習機能を備えた音声拡張言語モデル(SALM)を提案する。
SALMは自動音声認識(ASR)と音声翻訳(AST)のためのタスク固有のコンバータベースラインと同等の性能を達成する
論文 参考訳(メタデータ) (2023-10-13T22:07:33Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z) - Assessing Phrase Break of ESL Speech with Pre-trained Language Models
and Large Language Models [7.782346535009883]
本研究では,事前学習言語モデル (PLM) と大規模言語モデル (LLM) を用いて,ESL学習者の音声における句分割の評価手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T07:10:39Z) - SpeechGen: Unlocking the Generative Power of Speech Language Models with
Prompts [108.04306136086807]
本稿では,SpeechGenと呼ばれる統合フレームワークを用いて,各種タスクの音声LMを刺激するための即時チューニングの適用について検討する。
提案した統合フレームワークは効率と有効性に大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-03T22:35:27Z) - How Does Pretraining Improve Discourse-Aware Translation? [41.20896077662125]
本稿では,事前学習した言語モデルが会話関係の知識を捉える能力を理解するための探索タスクを提案する。
我々は、エンコーダ-、デコーダ-、およびエンコーダ-デコーダ-ベースモデルの3つの最先端PLMを検証する。
本研究は, PLMにおける言論的知識が下流作業にどのように機能するか, どのように機能するかを理解するための指導的手法である。
論文 参考訳(メタデータ) (2023-05-31T13:36:51Z) - Masked and Permuted Implicit Context Learning for Scene Text Recognition [8.742571493814326]
シーン認識(STR)は、テキストスタイル、形状、背景の変化のため困難である。
単一のデコーダ内において、STRのためのマスク付き暗黙的文脈学習ネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-25T15:31:02Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Fast, Effective and Self-Supervised: Transforming Masked LanguageModels
into Universal Lexical and Sentence Encoders [66.76141128555099]
余分なデータや監督なしでも、タスクを普遍的な語彙や文エンコーダに変換することが可能であることを示す。
極めて単純で高速で効果的なコントラスト学習手法であるMirror-BERTを提案する。
Mirror-BERT は完全に同一またはわずかに修正された文字列対を正の(同義の)微調整例として依存する。
語彙レベルと文レベルの両方のタスクにおいて、異なるドメインや異なる言語でMirror-BERTを使用したオフザシェルフよりも大幅に向上したことを報告します。
論文 参考訳(メタデータ) (2021-04-16T10:49:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。