論文の概要: Improving Disfluency Detection by Self-Training a Self-Attentive Model
- arxiv url: http://arxiv.org/abs/2004.05323v2
- Date: Wed, 29 Apr 2020 06:44:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 12:40:39.823569
- Title: Improving Disfluency Detection by Self-Training a Self-Attentive Model
- Title(参考訳): 自己認識モデルによる拡散検出の改善
- Authors: Paria Jamshid Lou, Mark Johnson
- Abstract要約: 文脈化された単語埋め込み(例えば ELMo や BERT)を用いた自己注意型ニューラルシンタクティクス(英語版)は、現在、音声書き起こしにおける共同解析と拡散検出の最先端の結果を生成する。
ラベルのないデータを組み込むための半教師付き手法である自己学習が, 拡散検出における自己注意のための新たな最先端技術であることを示す。
- 参考スコア(独自算出の注目度): 15.910282983166024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-attentive neural syntactic parsers using contextualized word embeddings
(e.g. ELMo or BERT) currently produce state-of-the-art results in joint parsing
and disfluency detection in speech transcripts. Since the contextualized word
embeddings are pre-trained on a large amount of unlabeled data, using
additional unlabeled data to train a neural model might seem redundant.
However, we show that self-training - a semi-supervised technique for
incorporating unlabeled data - sets a new state-of-the-art for the
self-attentive parser on disfluency detection, demonstrating that self-training
provides benefits orthogonal to the pre-trained contextualized word
representations. We also show that ensembling self-trained parsers provides
further gains for disfluency detection.
- Abstract(参考訳): 文脈化された単語埋め込み(例えば ELMo や BERT)を用いた自己注意型ニューラル構文解析器は、現在、音声書き起こしにおける共同構文解析と拡散検出の最先端の結果を生成する。
コンテキスト化された単語埋め込みは、大量のラベルなしデータで事前訓練されているため、追加のラベルなしデータを使用してニューラルネットワークをトレーニングすることは冗長に思える。
しかし, ラベル付きデータを組み込む半教師付き手法である自己学習が, 拡散検出における自己注意型パーサーの新たな技術として, 事前学習した文脈表現に直交する利益をもたらすことを示した。
また, 自己学習型パーサは, 分散検出のさらなる向上をもたらすことを示した。
関連論文リスト
- ViLReF: An Expert Knowledge Enabled Vision-Language Retinal Foundation Model [19.915033191502328]
この研究は、451,956枚の網膜画像とそれに対応する診断用テキストレポートからなるペアデータセットを事前トレーニングすることで、ViLReFと呼ばれる網膜基盤モデルを開発することを目的としている。
ビジョン言語による事前学習戦略では、専門家の知識を活用してラベルの抽出を容易にする。
我々は,モーメントエンコーダが保持する動的メモリキューを備えたバッチ拡張モジュールを用いて,偽陰性の排除による余分なサンプルの供給と空洞の補充を行う。
論文 参考訳(メタデータ) (2024-08-20T14:27:03Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Phonetic and Prosody-aware Self-supervised Learning Approach for
Non-native Fluency Scoring [13.817385516193445]
音声と韻律の特徴を解析することにより、音声の流速/拡散を評価することができる。
ディープ・ニューラル・ネットワークは一般に、流感に関連した特徴を人間のスコアにマッピングするように訓練されている。
本稿では,流音評価のための音声と韻律の認識を考慮した自己教師付き学習(SSL)手法を提案する。
論文 参考訳(メタデータ) (2023-05-19T05:39:41Z) - Incremental False Negative Detection for Contrastive Learning [95.68120675114878]
本稿では,自己指導型コントラスト学習のための新たな偽陰性検出手法を提案する。
対照的な学習では、検出された偽陰性を明示的に除去する2つの戦略について議論する。
提案手法は,制限された計算内での複数のベンチマークにおいて,他の自己教師付きコントラスト学習フレームワークよりも優れる。
論文 参考訳(メタデータ) (2021-06-07T15:29:14Z) - Conditional independence for pretext task selection in Self-supervised
speech representation learning [23.39079406674442]
自己教師付き学習(ssl)はラベルのないデータを利用して、下流タスクの従来の入力機能を置き換える有用な潜在表現を抽出する。
一般的なプリテキストタスクは、元の信号から派生した擬似ラベル上でSSLモデルを事前訓練することである。
本稿では,与えられた下流タスクに関連のある擬似ラベルを選択するための実用的かつ理論的フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-15T11:32:59Z) - Detecting Hallucinated Content in Conditional Neural Sequence Generation [165.68948078624499]
出力シーケンスの各トークンが(入力に含まれていない)幻覚化されているかどうかを予測するタスクを提案する。
また、合成データに微調整された事前学習言語モデルを用いて幻覚を検出する方法についても紹介する。
論文 参考訳(メタデータ) (2020-11-05T00:18:53Z) - GiBERT: Introducing Linguistic Knowledge into BERT through a Lightweight
Gated Injection Method [29.352569563032056]
本稿では,言語知識を単語埋め込みの形で,事前学習したBERTに明示的に注入する手法を提案する。
依存性ベースと逆適合の埋め込みを注入する場合、複数のセマンティックな類似性データセットのパフォーマンス改善は、そのような情報が有益であり、現在元のモデルから欠落していることを示している。
論文 参考訳(メタデータ) (2020-10-23T17:00:26Z) - Measuring Memorization Effect in Word-Level Neural Networks Probing [0.9156064716689833]
そこで,本研究では,学習における目に見える単語と見えない単語の対称選択に基づいて,記憶効果を簡易に測定する手法を提案する。
提案手法は, 探索装置で発生した記憶量の定量化に有効であり, 適切な設定が選択可能であり, 検証結果が信頼性推定値で解釈可能である。
論文 参考訳(メタデータ) (2020-06-29T14:35:42Z) - Adversarial Self-Supervised Contrastive Learning [62.17538130778111]
既存の対数学習アプローチは、主にクラスラベルを使用して、誤った予測につながる対数サンプルを生成する。
本稿では,未ラベルデータに対する新たな逆攻撃を提案する。これにより,モデルが摂動データサンプルのインスタンスレベルのアイデンティティを混乱させる。
ラベル付きデータなしで頑健なニューラルネットワークを逆さまにトレーニングするための,自己教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-13T08:24:33Z) - A Controllable Model of Grounded Response Generation [122.7121624884747]
現在のエンドツーエンドのニューラルネットワークモデルは、応答生成プロセスにセマンティックコントロールを課す柔軟性を本質的に欠いている。
我々は制御可能な接地応答生成(CGRG)と呼ばれるフレームワークを提案する。
このフレームワークを用いることで、会話のようなRedditデータセットでトレーニングされた、新しいインダクティブアテンション機構を備えたトランスフォーマーベースのモデルが、強力な生成ベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2020-05-01T21:22:08Z) - Semi-Supervised Models via Data Augmentationfor Classifying Interactive
Affective Responses [85.04362095899656]
本稿では、対話型感情応答を分類する半教師付きテキスト分類システムSMDA(Data Augmentation)を提案する。
ラベル付き文に対しては,ラベル分布の均一化と学習過程における教師付き損失の計算のためにデータ拡張を行った。
ラベルなし文に対しては,ラベルなし文に対する低エントロピー予測を擬似ラベルとして検討した。
論文 参考訳(メタデータ) (2020-04-23T05:02:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。