論文の概要: Improved POS tagging for spontaneous, clinical speech using data
augmentation
- arxiv url: http://arxiv.org/abs/2307.05796v1
- Date: Tue, 11 Jul 2023 20:42:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 14:58:22.925555
- Title: Improved POS tagging for spontaneous, clinical speech using data
augmentation
- Title(参考訳): データ拡張による自然, 臨床音声のPOSタグ付けの改善
- Authors: Seth Kulick, Neville Ryant, David J. Irwin, Naomi Nevler, Sunghye Cho
- Abstract要約: 本稿では,臨床における音声のPOSタグ付け改善の課題について論じる。
我々は、これらの構造を自然で自発的な音声に似せるようにするために、データ拡張技術を用いて、ニュースワイヤのドメインツリーバンクでトレーニングする。
- 参考スコア(独自算出の注目度): 4.3698842278825385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the problem of improving POS tagging of transcripts of
speech from clinical populations. In contrast to prior work on parsing and POS
tagging of transcribed speech, we do not make use of an in domain treebank for
training. Instead, we train on an out of domain treebank of newswire using data
augmentation techniques to make these structures resemble natural, spontaneous
speech. We trained a parser with and without the augmented data and tested its
performance using manually validated POS tags in clinical speech produced by
patients with various types of neurodegenerative conditions.
- Abstract(参考訳): 本稿では,臨床における音声のPOSタグ付け改善の課題について論じる。
書き起こされた音声の構文解析とPOSタグ付けに関する先行研究とは対照的に、私たちはトレーニングにドメインツリーバンクを使用しない。
代わりに、これらの構造を自然に自然に聞こえるようにするために、データ拡張技術を用いて、ニュースワイヤのドメインツリーバンクでトレーニングする。
種々の神経変性疾患を有する患者によって生成された臨床音声において,拡張データの有無に関わらずパーサーを訓練し,手作業で検証したposタグを用いてその性能を検証した。
関連論文リスト
- Careful Whisper -- leveraging advances in automatic speech recognition
for robust and interpretable aphasia subtype classification [0.0]
本稿では,音声記録から音声異常を同定し,音声障害の評価を支援するための完全自動アプローチを提案する。
Connectionist Temporal Classification (CTC) と encoder-decoder-based auto speech recognition model を組み合わせることで、リッチな音響およびクリーンな書き起こしを生成する。
そこで本研究では,これらの書き起こしから特徴を抽出し,健全な音声のプロトタイプを作成するために,いくつかの自然言語処理手法を適用した。
論文 参考訳(メタデータ) (2023-08-02T15:53:59Z) - Adversarial Training For Low-Resource Disfluency Correction [50.51901599433536]
ディフルエンシ補正(DC)のための逆学習型シーケンスタグ付けモデルを提案する。
提案手法の利点は,3つのインド語でDCに対して評価することで,合成された非流動データに大きく依存することを示す。
また,本手法は,音声障害によって導入されたASR文字の破面的不一致の除去にも有効である。
論文 参考訳(メタデータ) (2023-06-10T08:58:53Z) - Self-supervised Fine-tuning for Improved Content Representations by
Speaker-invariant Clustering [78.2927924732142]
話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。
Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
論文 参考訳(メタデータ) (2023-05-18T15:59:36Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Improving Distortion Robustness of Self-supervised Speech Processing
Tasks with Domain Adaptation [60.26511271597065]
音声歪みは、視覚的に訓練された音声処理モデルの性能を劣化させる長年の問題である。
音声処理モデルのロバスト性を向上して、音声歪みに遭遇する際の良好な性能を得るには、時間を要する。
論文 参考訳(メタデータ) (2022-03-30T07:25:52Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - On the Role of Style in Parsing Speech with Neural Models [25.442727974788255]
本研究は, 自然発話の構文解析を改善するために, テキストによるニューラルアプローチが有用であることを示す。
読み書きと自然発話の非対称的な劣化がみられた。
論文 参考訳(メタデータ) (2020-10-08T22:44:19Z) - Robust Prediction of Punctuation and Truecasing for Medical ASR [18.08508027663331]
本稿では,句読点と実測点の予測のための条件付き共同モデリングフレームワークを提案する。
また,医療領域データを用いた微調整型マスキング言語モデルによるドメイン・タスク特化手法を提案する。
論文 参考訳(メタデータ) (2020-07-04T07:15:13Z) - Improving Disfluency Detection by Self-Training a Self-Attentive Model [15.910282983166024]
文脈化された単語埋め込み(例えば ELMo や BERT)を用いた自己注意型ニューラルシンタクティクス(英語版)は、現在、音声書き起こしにおける共同解析と拡散検出の最先端の結果を生成する。
ラベルのないデータを組み込むための半教師付き手法である自己学習が, 拡散検出における自己注意のための新たな最先端技術であることを示す。
論文 参考訳(メタデータ) (2020-04-11T06:53:08Z) - Identification of primary and collateral tracks in stuttered speech [22.921077940732]
臨床およびNLPパースペクティブに着想を得て, 拡散検出のための新しい評価フレームワークを提案する。
本稿では, 半方向性インタビューのコーパスから, 強制整列型ディスフルエンシデータセットを提案する。
単語ベースのスパン特徴を用いることで,音声による予測のベースラインよりも優れることを示す。
論文 参考訳(メタデータ) (2020-03-02T16:50:33Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。