論文の概要: DP-Parse: Finding Word Boundaries from Raw Speech with an Instance
Lexicon
- arxiv url: http://arxiv.org/abs/2206.11332v1
- Date: Wed, 22 Jun 2022 19:15:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-25 02:44:37.553817
- Title: DP-Parse: Finding Word Boundaries from Raw Speech with an Instance
Lexicon
- Title(参考訳): DP-Parse:インスタンス辞書による生音声から単語境界を見つける
- Authors: Robin Algayres, Tristan Ricoul, Julien Karadayi, Hugo Lauren\c{c}on,
Salah Zaiem, Abdelrahman Mohamed, Beno\^it Sagot, Emmanuel Dupoux
- Abstract要約: DP-Parseも同様の原理を用いるが、ワードトークンのインスタンスレキシコンにのみ依存する。
Zero Resource Speech Benchmark 2017で、我々のモデルは5つの言語で新しい音声セグメンテーション状態を設定する。
型レキシコンが欠如しているにもかかわらず、DP-Parseは言語モデルにパイプライン化され、新しい音声単語埋め込みベンチマークで評価されるように、セマンティック表現を学ぶことができる。
- 参考スコア(独自算出の注目度): 18.05179713472479
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Finding word boundaries in continuous speech is challenging as there is
little or no equivalent of a 'space' delimiter between words. Popular Bayesian
non-parametric models for text segmentation use a Dirichlet process to jointly
segment sentences and build a lexicon of word types. We introduce DP-Parse,
which uses similar principles but only relies on an instance lexicon of word
tokens, avoiding the clustering errors that arise with a lexicon of word types.
On the Zero Resource Speech Benchmark 2017, our model sets a new speech
segmentation state-of-the-art in 5 languages. The algorithm monotonically
improves with better input representations, achieving yet higher scores when
fed with weakly supervised inputs. Despite lacking a type lexicon, DP-Parse can
be pipelined to a language model and learn semantic and syntactic
representations as assessed by a new spoken word embedding benchmark.
- Abstract(参考訳): 連続音声における単語境界の発見は、単語間に「空間」の区切りがほとんど、あるいは全くないため困難である。
テキストセグメンテーションのための一般的なベイズ非パラメトリックモデルでは、ディリクレプロセスを使用して文を分割し、単語タイプの語彙を構築する。
同様の原則を用いるが,単語トークンのインスタンスレキシコンのみに依存するdp-parseを導入することで,単語タイプのレキシコンによるクラスタリングエラーを回避する。
Zero Resource Speech Benchmark 2017で、我々のモデルは5つの言語で新しい音声セグメンテーション状態を設定する。
このアルゴリズムは、より優れた入力表現で単調に改善し、弱い教師付き入力で入力されるとさらに高いスコアを達成する。
型レキシコンがないにもかかわらず、DP-Parseは言語モデルにパイプライン化され、新しい音声単語埋め込みベンチマークで評価された意味と構文表現を学ぶことができる。
関連論文リスト
- Unsupervised Word Discovery: Boundary Detection with Clustering vs. Dynamic Programming [22.044042563954378]
我々は、ラベルなし音声を単語のようなセグメントに分割し、それらを辞書に集約するという長年の課題について考察する。
そこで我々は, 隣接した自己教師付き特徴の相似性を用いて単語境界を予測し, 予測セグメントをクラスタ化して辞書を構築するという, より単純な戦略を提案する。
公平な比較のために、より優れた機能と境界制約を持つ古いES-KMeans動的プログラミング手法を更新する。
論文 参考訳(メタデータ) (2024-09-22T15:16:43Z) - An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - XLS-R fine-tuning on noisy word boundaries for unsupervised speech
segmentation into words [13.783996617841467]
XLS-Rモデルを微調整し、上位層音声分割システムによって生成された単語境界を予測する。
我々のシステムは、ゼロショット方式で微調整中に目に見えない言語から音声を分割することができる。
論文 参考訳(メタデータ) (2023-10-08T17:05:00Z) - Generative Spoken Language Model based on continuous word-sized audio
tokens [52.081868603603844]
本稿では,単語サイズ連続評価音声埋め込みに基づく生成音声言語モデルを提案する。
結果として得られるモデルは、単語サイズの連続埋め込みに基づく最初の生成言語モデルである。
論文 参考訳(メタデータ) (2023-10-08T16:46:14Z) - Cascading and Direct Approaches to Unsupervised Constituency Parsing on
Spoken Sentences [67.37544997614646]
本研究は,教師なし音声補聴における最初の研究である。
目的は, 音声文の階層的構文構造を, 選挙区解析木の形で決定することである。
正確なセグメンテーションだけでは、音声文を正確に解析するのに十分であることを示す。
論文 参考訳(メタデータ) (2023-03-15T17:57:22Z) - Between words and characters: A Brief History of Open-Vocabulary
Modeling and Tokenization in NLP [22.772546707304766]
単語と文字のハイブリッドなアプローチと,学習セグメンテーションに基づくサブワードベースのアプローチが提案され,評価されていることを示す。
すべてのアプリケーションに対して銀の弾丸特異解が存在することはあり得ない。
論文 参考訳(メタデータ) (2021-12-20T13:04:18Z) - Joint Chinese Word Segmentation and Part-of-speech Tagging via Two-stage
Span Labeling [0.2624902795082451]
SpanSegTagと名づけられた中国語単語分割と音声タグ付けのためのニューラルモデルを提案する。
実験の結果,BERTベースのモデルであるSpanSegTagは,CTB5,CTB6,UDデータセット上での競合性能を達成した。
論文 参考訳(メタデータ) (2021-12-17T12:59:02Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Multi-view Subword Regularization [111.04350390045705]
マルチビューサブワード正規化(MVR)は、標準でトークン化された入力と確率的セグメンテーションとの整合性を強制する手法です。
XTREMEマルチ言語ベンチマークの結果は、MVRが標準セグメンテーションアルゴリズムよりも最大2.5ポイントの一貫性のある改善をもたらすことを示している。
論文 参考訳(メタデータ) (2021-03-15T16:07:42Z) - Augmenting Part-of-speech Tagging with Syntactic Information for
Vietnamese and Chinese [0.32228025627337864]
我々は,ベトナム語の単語分割と音声タグ付けの一部を,簡易な選挙区を用いて改善するという考え方を実装した。
共同語分割とパート・オブ・音声タギングのためのニューラルモデルは,音節に基づく構成のアーキテクチャを持つ。
このモデルは、予測された単語境界と、他のツールによる音声タグで拡張することができる。
論文 参考訳(メタデータ) (2021-02-24T08:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。