論文の概要: Assessing the Use of Prosody in Constituency Parsing of Imperfect
Transcripts
- arxiv url: http://arxiv.org/abs/2106.07794v1
- Date: Mon, 14 Jun 2021 23:05:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 06:53:17.178677
- Title: Assessing the Use of Prosody in Constituency Parsing of Imperfect
Transcripts
- Title(参考訳): 不完全な文字の区分けにおける韻律の活用の評価
- Authors: Trang Tran and Mari Ostendorf
- Abstract要約: 本研究は、自動認識された会話音声の書き起こしに基づく選挙区解析について検討する。
韻律は獲得の重要な部分を占め、分析により、関数語を復元することでより文法的な発話につながることが示唆されている。
- 参考スコア(独自算出の注目度): 21.166854490478944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work explores constituency parsing on automatically recognized
transcripts of conversational speech. The neural parser is based on a sentence
encoder that leverages word vectors contextualized with prosodic features,
jointly learning prosodic feature extraction with parsing. We assess the
utility of the prosody in parsing on imperfect transcripts, i.e. transcripts
with automatic speech recognition (ASR) errors, by applying the parser in an
N-best reranking framework. In experiments on Switchboard, we obtain 13-15% of
the oracle N-best gain relative to parsing the 1-best ASR output, with
insignificant impact on word recognition error rate. Prosody provides a
significant part of the gain, and analyses suggest that it leads to more
grammatical utterances via recovering function words.
- Abstract(参考訳): 本研究は,会話音声の自動認識書き起こしにおける構成構文解析について検討する。
ニューラルパーサは、韻律特徴を伴う文脈化された単語ベクトルを利用する文エンコーダに基づいており、構文解析を伴う韻律特徴抽出を共同学習する。
我々は不完全な転写文を解析する際の韻律の有用性を評価する。
自動音声認識(ASR)エラーの書き起こしは、N-best再ランクフレームワークにパーサを適用することで行う。
Switchboardでの実験では, 1-best ASR出力のパースに対して, 13-15%のオラクルN-bestゲインが得られ, 単語認識誤り率に大きな影響を与えている。
韻律は利得の大きな部分を提供し、分析の結果、機能語を回復することでより文法的な発話につながることが示唆された。
関連論文リスト
- Textless Dependency Parsing by Labeled Sequence Prediction [18.32371054754222]
自動音声認識システムなしで音声表現を処理する「テキストレス」手法
提案手法は,木をラベル付きシーケンスとして表現し,音声信号から係り受け木を予測する。
本研究は,解析性能を高めるために,単語レベルの表現と文レベルの韻律を融合させることの重要性を強調した。
論文 参考訳(メタデータ) (2024-07-14T08:38:14Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Personalization for BERT-based Discriminative Speech Recognition
Rescoring [13.58828513686159]
認識を改善するために、パーソナライズされたコンテンツを使用する新しい3つのアプローチ:ガゼッタ、プロンプト、および、クロスアテンションベースのエンコーダ-デコーダモデル。
パーソナライズされたエンティティを持つテストセットにおいて、これらのアプローチは、ニューラルネットワークのベースラインに対して、ワードエラー率を10%以上改善することを示す。
論文 参考訳(メタデータ) (2023-07-13T15:54:32Z) - ParaAMR: A Large-Scale Syntactically Diverse Paraphrase Dataset by AMR
Back-Translation [59.91139600152296]
ParaAMRは、抽象的な表現のバックトランスレーションによって生成される、大規模な構文的に多様なパラフレーズデータセットである。
そこで本研究では,ParaAMRを用いて文の埋め込み学習,構文的に制御されたパラフレーズ生成,数ショット学習のためのデータ拡張という,3つのNLPタスクを改善することができることを示す。
論文 参考訳(メタデータ) (2023-05-26T02:27:33Z) - Cascading and Direct Approaches to Unsupervised Constituency Parsing on
Spoken Sentences [67.37544997614646]
本研究は,教師なし音声補聴における最初の研究である。
目的は, 音声文の階層的構文構造を, 選挙区解析木の形で決定することである。
正確なセグメンテーションだけでは、音声文を正確に解析するのに十分であることを示す。
論文 参考訳(メタデータ) (2023-03-15T17:57:22Z) - Minimising Biasing Word Errors for Contextual ASR with the
Tree-Constrained Pointer Generator [19.372248692745167]
高評価長尾語における音声認識誤りの低減には文脈知識が不可欠である。
本稿では,木制約付きポインタジェネレータ(TCPGen)コンポーネントを提案する。
論文 参考訳(メタデータ) (2022-05-18T16:40:50Z) - Phrase Retrieval Learns Passage Retrieval, Too [77.57208968326422]
文節検索が,文節や文書を含む粗いレベルの検索の基盤となるかを検討する。
句検索システムでは,句検索の精度が向上し,句検索の精度が向上していることを示す。
また,句のフィルタリングやベクトル量子化により,インデックスのサイズを4~10倍に削減できることを示す。
論文 参考訳(メタデータ) (2021-09-16T17:42:45Z) - Tree-constrained Pointer Generator for End-to-end Contextual Speech
Recognition [16.160767678589895]
TCPGenは、アテンションベースのエンコーダデコーダとトランスデューサエンドツーエンドのASRモデルの両方に偏りのある単語のリストのような知識を組み込む。
TCPGenは、バイアスワードを効率的なプレフィックスツリーに構造化し、そのシンボル入力として機能し、デコード中のバイアスワードの認識を容易にするニューラルネットワークショートカットを生成する。
論文 参考訳(メタデータ) (2021-09-01T21:41:59Z) - UniSpeech: Unified Speech Representation Learning with Labeled and
Unlabeled Data [54.733889961024445]
ラベル付きデータとラベル付きデータの両方を用いて音声表現を学習するためのUniSpeechという統合事前学習手法を提案する。
公立CommonVoiceコーパス上での言語間表現学習におけるUniSpeechの有効性を評価する。
論文 参考訳(メタデータ) (2021-01-19T12:53:43Z) - Pareto Probing: Trading Off Accuracy for Complexity [87.09294772742737]
我々は,プローブの複雑性と性能の基本的なトレードオフを反映したプローブ計量について論じる。
係り受け解析による実験により,文脈表現と非文脈表現の統語的知識の幅広いギャップが明らかとなった。
論文 参考訳(メタデータ) (2020-10-05T17:27:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。