Fugu-MT 論文翻訳(概要): Warped Language Models for Noise Robust Language Understanding

論文の概要: Warped Language Models for Noise Robust Language Understanding

arxiv url: http://arxiv.org/abs/2011.01900v1
Date: Tue, 3 Nov 2020 18:26:28 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-30 03:51:09.910037
Title: Warped Language Models for Noise Robust Language Understanding
Title（参考訳）: 雑音ロバスト言語理解のためのワープ言語モデル
Authors: Mahdi Namazifar, Gokhan Tur, Dilek Hakkani T\"ur
Abstract要約: Masked Language Models (MLM) は、与えられた文の空白をマスク付きトークンで埋める自己教師型ニューラルネットワークである。本稿では,WLM上に構築された自然言語理解システムが,対話型言語よりも優れていることを示す。
参考スコア（独自算出の注目度）: 11.017026606760728
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Masked Language Models (MLM) are self-supervised neural networks trained to fill in the blanks in a given sentence with masked tokens. Despite the tremendous success of MLMs for various text based tasks, they are not robust for spoken language understanding, especially for spontaneous conversational speech recognition noise. In this work we introduce Warped Language Models (WLM) in which input sentences at training time go through the same modifications as in MLM, plus two additional modifications, namely inserting and dropping random tokens. These two modifications extend and contract the sentence in addition to the modifications in MLMs, hence the word "warped" in the name. The insertion and drop modification of the input text during training of WLM resemble the types of noise due to Automatic Speech Recognition (ASR) errors, and as a result WLMs are likely to be more robust to ASR noise. Through computational results we show that natural language understanding systems built on top of WLMs perform better compared to those built based on MLMs, especially in the presence of ASR errors.
Abstract（参考訳）: Masked Language Models (MLM) は、与えられた文の空白をマスク付きトークンで埋めるように訓練された自己教師型ニューラルネットワークである。様々なテキストベースのタスクにおいてMLMが驚くほど成功したにもかかわらず、言語理解、特に自然発声音声認識の雑音に対して堅牢ではない。この作業では、トレーニング時の入力文がMLMと同じ修正を経て、ランダムトークンの挿入とドロップという2つの追加的な修正を行うWLM(Warped Language Models)を導入しました。これらの2つの修正は、MLMの修正に加えて文を拡張して収縮させるため、名前の「ウォープ」が用いられる。 WLMのトレーニング中の入力テキストの挿入とドロップ修正は、自動音声認識(ASR)エラーによるノイズの種類に似ており、その結果、WLMはASRノイズに対してより堅牢である可能性が高い。計算結果から,WLM上に構築された自然言語理解システムは,特にASRエラーの存在下では,MLMをベースとしたシステムよりも優れていることを示す。

関連論文リスト

TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling [46.60911294356232]
テキスト対応音声トークン化と埋め込み(TASTE)について紹介する。 TASTEは、音声トークンと対応するテキストの書き起こしをトークン化段階で整列させることにより、モダリティギャップに直接対処する手法である。我々は広範囲な実験を行い、TASTEはトークン列の長さを劇的に減らしながら重要なパラ言語情報を保持することができることを示す。
論文参考訳（メタデータ） (2025-04-09T17:14:33Z)
DC-Spin: A Speaker-invariant Speech Tokenizer for Spoken Language Models [45.791472119671916]
音声言語モデル(SLM)はテキストと音声を処理し、同時に音声の理解と生成を可能にする。 DC-Spinは音声信号とSLMトークンをブリッジすることで音声のトークン化を改善することを目的としている。本稿では,再学習や劣化を伴わずに,ストリーム可能なDC-Spinを実現するためのチャンクワイズ手法を提案する。
論文参考訳（メタデータ） (2024-10-31T17:43:13Z)
Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文参考訳（メタデータ） (2024-09-30T07:01:21Z)
Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。提案手法では,WavLMとWhisperエンコーダを用いて,話者の特徴や意味的文脈に敏感な多面的音声表現を抽出する。包括的実験により,カクテルパーティーのシナリオにおいて提案システムであるMT-LLMが期待できる性能を示した。
論文参考訳（メタデータ） (2024-09-13T07:28:28Z)
SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。音声処理タスクを音声単位生成タスクに再構成する。提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文参考訳（メタデータ） (2024-08-23T13:00:10Z)
Which Syntactic Capabilities Are Statistically Learned by Masked Language Models for Code? [51.29970742152668]
精度に基づく測定に依存することで、モデルの能力が過大評価される可能性があることを強調する。これらの問題に対処するために,SyntaxEval in Syntactic Capabilitiesというテクニックを導入する。
論文参考訳（メタデータ） (2024-01-03T02:44:02Z)
Assessing Phrase Break of ESL Speech with Pre-trained Language Models and Large Language Models [7.782346535009883]
本研究では,事前学習言語モデル (PLM) と大規模言語モデル (LLM) を用いて,ESL学習者の音声における句分割の評価手法を提案する。
論文参考訳（メタデータ） (2023-06-08T07:10:39Z)
SpeechGen: Unlocking the Generative Power of Speech Language Models with Prompts [108.04306136086807]
本稿では,SpeechGenと呼ばれる統合フレームワークを用いて,各種タスクの音声LMを刺激するための即時チューニングの適用について検討する。提案した統合フレームワークは効率と有効性に大きな可能性を秘めている。
論文参考訳（メタデータ） (2023-06-03T22:35:27Z)
How Does Pretraining Improve Discourse-Aware Translation? [41.20896077662125]
本稿では,事前学習した言語モデルが会話関係の知識を捉える能力を理解するための探索タスクを提案する。我々は、エンコーダ-、デコーダ-、およびエンコーダ-デコーダ-ベースモデルの3つの最先端PLMを検証する。本研究は, PLMにおける言論的知識が下流作業にどのように機能するか, どのように機能するかを理解するための指導的手法である。
論文参考訳（メタデータ） (2023-05-31T13:36:51Z)
Masked and Permuted Implicit Context Learning for Scene Text Recognition [8.742571493814326]
シーン認識(STR)は、テキストスタイル、形状、背景の変化のため困難である。単一のデコーダ内において、STRのためのマスク付き暗黙的文脈学習ネットワークを提案する。
論文参考訳（メタデータ） (2023-05-25T15:31:02Z)
Towards Language Modelling in the Speech Domain Using Sub-word Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文参考訳（メタデータ） (2021-10-31T22:48:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。