論文の概要: Cascading and Direct Approaches to Unsupervised Constituency Parsing on
Spoken Sentences
- arxiv url: http://arxiv.org/abs/2303.08809v1
- Date: Wed, 15 Mar 2023 17:57:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 12:45:24.487521
- Title: Cascading and Direct Approaches to Unsupervised Constituency Parsing on
Spoken Sentences
- Title(参考訳): 音声文に基づく教師なし選挙区パーシングへのカスケードと直接的アプローチ
- Authors: Yuan Tseng, Cheng-I Lai, Hung-yi Lee
- Abstract要約: 本研究は,教師なし音声補聴における最初の研究である。
目的は, 音声文の階層的構文構造を, 選挙区解析木の形で決定することである。
正確なセグメンテーションだけでは、音声文を正確に解析するのに十分であることを示す。
- 参考スコア(独自算出の注目度): 67.37544997614646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Past work on unsupervised parsing is constrained to written form. In this
paper, we present the first study on unsupervised spoken constituency parsing
given unlabeled spoken sentences and unpaired textual data. The goal is to
determine the spoken sentences' hierarchical syntactic structure in the form of
constituency parse trees, such that each node is a span of audio that
corresponds to a constituent. We compare two approaches: (1) cascading an
unsupervised automatic speech recognition (ASR) model and an unsupervised
parser to obtain parse trees on ASR transcripts, and (2) direct training an
unsupervised parser on continuous word-level speech representations. This is
done by first splitting utterances into sequences of word-level segments, and
aggregating self-supervised speech representations within segments to obtain
segment embeddings. We find that separately training a parser on the unpaired
text and directly applying it on ASR transcripts for inference produces better
results for unsupervised parsing. Additionally, our results suggest that
accurate segmentation alone may be sufficient to parse spoken sentences
accurately. Finally, we show the direct approach may learn head-directionality
correctly for both head-initial and head-final languages without any explicit
inductive bias.
- Abstract(参考訳): 教師なし解析に関する過去の作業は、書式に制約されている。
本稿では,未ラベルの音声文と未ペアのテキストデータを用いた教師なし音声補聴に関する最初の研究について述べる。
目標は、各ノードが構成要素に対応する音声のスパンであるように、音声文の階層的構文構造を構成構文解析ツリーの形式で決定することである。
我々は,(1)教師なし自動音声認識(ASR)モデルと教師なし構文解析器をカスケードして,ASR文字のパースツリーを得る,(2)教師なし構文解析器を単語レベルの連続表現で直接訓練する,の2つのアプローチを比較した。
これは、まず発話を単語レベルセグメントのシーケンスに分割し、セグメント内で自己教師付き音声表現を集約してセグメント埋め込みを得る。
非ペアテキストのパーサを別々にトレーニングし、推論のためにasrの書き起こしに直接適用することで、教師なし構文解析のより良い結果が得られることが分かりました。
さらに, 精度の高いセグメンテーションだけでは, 音声文を正確に解析するのに十分である可能性が示唆された。
最後に、直接的アプローチは、明示的な帰納的バイアスを伴わずに、頭頭と頭の両方の言語で正しく頭指向性を学ぶことができることを示す。
関連論文リスト
- token2vec: A Joint Self-Supervised Pre-training Framework Using Unpaired
Speech and Text [65.04385919645395]
token2vecは、音声の離散表現に基づく、未ペア音声とテキストのための新しい事前学習フレームワークである。
実験の結果、 token2vec は様々な音声のみの事前学習ベースラインよりも大幅に優れており、WER の相対的な減少率は17.7%である。
論文 参考訳(メタデータ) (2022-10-30T06:38:19Z) - Simple and Effective Unsupervised Speech Translation [68.25022245914363]
ラベル付きデータなしで音声翻訳システムを構築するための,シンプルで効果的な手法について検討する。
事前学習された音声モデルに対する教師なし領域適応手法を提案する。
実験により、教師なし音声からテキストへの翻訳は、それまでの教師なし状態よりも優れていたことが示されている。
論文 参考訳(メタデータ) (2022-10-18T22:26:13Z) - Unsupervised Full Constituency Parsing with Neighboring Distribution
Divergence [48.69930912510414]
本稿では,最近導入されたメトリクスの特性を利用して,教師なしかつトレーニング不要なラベル付け手法を提案する。
実装のために,NDD を Dual POS-NDD に実装し,文中の構成要素とそのラベルを検出する "モールド" を構築する。
DP-NDDは, 構成成分を正確にラベル付けするだけでなく, より単純なルールを持つ従来手法よりも, より正確なラベル付き選挙区木を誘導することを示す。
論文 参考訳(メタデータ) (2021-10-29T17:27:34Z) - DMRST: A Joint Framework for Document-Level Multilingual RST Discourse
Segmentation and Parsing [24.986030179701405]
本稿では,EDUセグメンテーションと談話木解析を共同で行う文書レベルの多言語RST談話解析フレームワークを提案する。
本モデルは,すべてのサブタスクにおいて,文書レベルの多言語RST解析における最先端性能を実現する。
論文 参考訳(メタデータ) (2021-10-09T09:15:56Z) - RST Parsing from Scratch [14.548146390081778]
本稿では、RST(Rhetorical Structure Theory)フレームワークにおいて、文書レベルの言論解析の新しいエンドツーエンドの定式化を導入する。
本フレームワークは,会話のセグメンテーションを前提条件として必要とせず,スクラッチからの談話解析を容易にする。
我々の統合構文解析モデルでは、ビームサーチを用いて、最高の木構造を高速な木々の空間を探索することでデコードする。
論文 参考訳(メタデータ) (2021-05-23T06:19:38Z) - Corruption Is Not All Bad: Incorporating Discourse Structure into
Pre-training via Corruption for Essay Scoring [30.369858107620715]
本稿では,エッセイの談話構造をコヒーレンスと凝集の観点から捉えるための教師なし事前学習手法を提案する。
提案手法は,エッセイ評価課題における最先端の成果を実現する。
論文 参考訳(メタデータ) (2020-10-13T03:17:34Z) - A Simple Global Neural Discourse Parser [61.728994693410954]
本稿では,手作業で構築した特徴を必要とせず,学習したスパン表現のみに基づく簡易なグラフベースニューラル談話を提案する。
我々は,我々のモデルが世界規模で最高の性能を達成し,最先端の欲求に匹敵する性能を実証的に示す。
論文 参考訳(メタデータ) (2020-09-02T19:28:40Z) - Unsupervised Dual Paraphrasing for Two-stage Semantic Parsing [41.345662724584884]
非自明な人的労力を減らすための2段階意味解析フレームワークを提案する。
第1段階では、教師なしパラフレーズモデルを用いて、ラベルなし自然言語の発話を標準発話に変換する。
下流のナイーブなセマンティクスは中間出力を受け取り、ターゲット論理形式を返す。
論文 参考訳(メタデータ) (2020-05-27T16:47:44Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。