論文の概要: Cascading and Direct Approaches to Unsupervised Constituency Parsing on
Spoken Sentences
- arxiv url: http://arxiv.org/abs/2303.08809v2
- Date: Tue, 9 May 2023 10:36:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 15:48:15.091690
- Title: Cascading and Direct Approaches to Unsupervised Constituency Parsing on
Spoken Sentences
- Title(参考訳): 音声文に基づく教師なし選挙区パーシングへのカスケードと直接的アプローチ
- Authors: Yuan Tseng, Cheng-I Lai, Hung-yi Lee
- Abstract要約: 本研究は,教師なし音声補聴における最初の研究である。
目的は, 音声文の階層的構文構造を, 選挙区解析木の形で決定することである。
正確なセグメンテーションだけでは、音声文を正確に解析するのに十分であることを示す。
- 参考スコア(独自算出の注目度): 67.37544997614646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Past work on unsupervised parsing is constrained to written form. In this
paper, we present the first study on unsupervised spoken constituency parsing
given unlabeled spoken sentences and unpaired textual data. The goal is to
determine the spoken sentences' hierarchical syntactic structure in the form of
constituency parse trees, such that each node is a span of audio that
corresponds to a constituent. We compare two approaches: (1) cascading an
unsupervised automatic speech recognition (ASR) model and an unsupervised
parser to obtain parse trees on ASR transcripts, and (2) direct training an
unsupervised parser on continuous word-level speech representations. This is
done by first splitting utterances into sequences of word-level segments, and
aggregating self-supervised speech representations within segments to obtain
segment embeddings. We find that separately training a parser on the unpaired
text and directly applying it on ASR transcripts for inference produces better
results for unsupervised parsing. Additionally, our results suggest that
accurate segmentation alone may be sufficient to parse spoken sentences
accurately. Finally, we show the direct approach may learn head-directionality
correctly for both head-initial and head-final languages without any explicit
inductive bias.
- Abstract(参考訳): 教師なし解析に関する過去の作業は、書式に制約されている。
本稿では,未ラベルの音声文と未ペアのテキストデータを用いた教師なし音声補聴に関する最初の研究について述べる。
目標は、各ノードが構成要素に対応する音声のスパンであるように、音声文の階層的構文構造を構成構文解析ツリーの形式で決定することである。
我々は,(1)教師なし自動音声認識(ASR)モデルと教師なし構文解析器をカスケードして,ASR文字のパースツリーを得る,(2)教師なし構文解析器を単語レベルの連続表現で直接訓練する,の2つのアプローチを比較した。
これは、まず発話を単語レベルセグメントのシーケンスに分割し、セグメント内で自己教師付き音声表現を集約してセグメント埋め込みを得る。
非ペアテキストのパーサを別々にトレーニングし、推論のためにasrの書き起こしに直接適用することで、教師なし構文解析のより良い結果が得られることが分かりました。
さらに, 精度の高いセグメンテーションだけでは, 音声文を正確に解析するのに十分である可能性が示唆された。
最後に、直接的アプローチは、明示的な帰納的バイアスを伴わずに、頭頭と頭の両方の言語で正しく頭指向性を学ぶことができることを示す。
関連論文リスト
- Growing Trees on Sounds: Assessing Strategies for End-to-End Dependency Parsing of Speech [8.550564152063522]
音声解析における2つの解析パラダイムの性能評価を目的とした一連の実験について報告する。
我々はこの評価をフランス語の大きな木バンクで行い、現実的な自発的な会話を特徴とする。
その結果, (i) グラフに基づく手法は, (ii) パラメータが30%少ないにもかかわらず, (ii) 音声から直接解析することで, パイプライン手法よりも優れた結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-06-18T13:46:10Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。
本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Structured Tree Alignment for Evaluation of (Speech) Constituency Parsing [43.758912958903494]
本稿では, 音声評価の問題に起因した, 区切り木間の類似度尺度STRUCT-IOUについて述べる。
パラメータを計算するために,音声領域に強制アライメントを施して接地構文解析木を投影し,予測された接地構造成分と予測された成分を一定の制約下で整列させ,すべての整列構成ペアの平均IOUスコアを算出する。
論文 参考訳(メタデータ) (2024-02-21T00:01:17Z) - REBORN: Reinforcement-Learned Boundary Segmentation with Iterative Training for Unsupervised ASR [54.64158282822995]
教師なしASRにおける反復訓練を用いたREBORN, Reinforcement-Learned boundaryを提案する。
ReBORNは、音声信号におけるセグメント構造の境界を予測するセグメンテーションモデルのトレーニングと、セグメンテーションモデルによってセグメント化された音声特徴である音素予測モデルのトレーニングを交互に行い、音素転写を予測する。
我々は、広範囲にわたる実験を行い、同じ条件下で、REBORNは、LibriSpeech、TIMIT、および5つの非英語言語において、以前の教師なしASRモデルよりも優れていることを発見した。
論文 参考訳(メタデータ) (2024-02-06T13:26:19Z) - Audio-Visual Neural Syntax Acquisition [91.14892278795892]
視覚的音声からの句構造誘導について検討する。
本稿では,音声を聴いたり,画像を見たりすることでフレーズ構造を学習するAV-NSL(Audio-Visual Neural Syntax Learner)について述べる。
論文 参考訳(メタデータ) (2023-10-11T16:54:57Z) - Unsupervised Full Constituency Parsing with Neighboring Distribution
Divergence [48.69930912510414]
本稿では,最近導入されたメトリクスの特性を利用して,教師なしかつトレーニング不要なラベル付け手法を提案する。
実装のために,NDD を Dual POS-NDD に実装し,文中の構成要素とそのラベルを検出する "モールド" を構築する。
DP-NDDは, 構成成分を正確にラベル付けするだけでなく, より単純なルールを持つ従来手法よりも, より正確なラベル付き選挙区木を誘導することを示す。
論文 参考訳(メタデータ) (2021-10-29T17:27:34Z) - RST Parsing from Scratch [14.548146390081778]
本稿では、RST(Rhetorical Structure Theory)フレームワークにおいて、文書レベルの言論解析の新しいエンドツーエンドの定式化を導入する。
本フレームワークは,会話のセグメンテーションを前提条件として必要とせず,スクラッチからの談話解析を容易にする。
我々の統合構文解析モデルでは、ビームサーチを用いて、最高の木構造を高速な木々の空間を探索することでデコードする。
論文 参考訳(メタデータ) (2021-05-23T06:19:38Z) - A Simple Global Neural Discourse Parser [61.728994693410954]
本稿では,手作業で構築した特徴を必要とせず,学習したスパン表現のみに基づく簡易なグラフベースニューラル談話を提案する。
我々は,我々のモデルが世界規模で最高の性能を達成し,最先端の欲求に匹敵する性能を実証的に示す。
論文 参考訳(メタデータ) (2020-09-02T19:28:40Z) - Unsupervised Dual Paraphrasing for Two-stage Semantic Parsing [41.345662724584884]
非自明な人的労力を減らすための2段階意味解析フレームワークを提案する。
第1段階では、教師なしパラフレーズモデルを用いて、ラベルなし自然言語の発話を標準発話に変換する。
下流のナイーブなセマンティクスは中間出力を受け取り、ターゲット論理形式を返す。
論文 参考訳(メタデータ) (2020-05-27T16:47:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。