論文の概要: Mining Word Boundaries in Speech as Naturally Annotated Word
Segmentation Data
- arxiv url: http://arxiv.org/abs/2210.17122v1
- Date: Mon, 31 Oct 2022 08:02:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 17:07:41.126052
- Title: Mining Word Boundaries in Speech as Naturally Annotated Word
Segmentation Data
- Title(参考訳): 自然な注釈付き単語セグメンテーションデータとしての音声における単語境界の抽出
- Authors: Lei Zhang, Shilin Zhou, Chen Gong, Zhenghua Li, Zhefeng Wang, Baoxing
Huai, Min Zhang
- Abstract要約: 中国語の単語セグメンテーション(CWS)モデルは、トレーニングデータが十分でドメイン内にある場合、非常に高いパフォーマンスを実現している。
本稿では,音声中のポーズから単語境界情報を抽出し,大規模CWSの自然な注釈付きデータを効率よく得ることを提案する。
- 参考スコア(独自算出の注目度): 41.47578837946843
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chinese word segmentation (CWS) models have achieved very high performance
when the training data is sufficient and in-domain. However, the performance
drops drastically when shifting to cross-domain and low-resource scenarios due
to data sparseness issues. Considering that constructing large-scale manually
annotated data is time-consuming and labor-intensive, in this work, we for the
first time propose to mine word boundary information from pauses in speech to
efficiently obtain large-scale CWS naturally annotated data. We present a
simple yet effective complete-then-train method to utilize these natural
annotations from speech for CWS model training. Extensive experiments
demonstrate that the CWS performance in cross-domain and low-resource scenarios
can be significantly improved by leveraging our naturally annotated data
extracted from speech.
- Abstract(参考訳): 中国語の単語セグメンテーション(CWS)モデルは、トレーニングデータが十分でドメイン内において非常に高いパフォーマンスを実現している。
しかし、データスパース性の問題により、クロスドメインと低リソースのシナリオに移行すると、パフォーマンスは大幅に低下する。
本研究は,大規模手動注釈データの構築に時間と労力がかかることを考慮し,音声中のポーズから単語境界情報を抽出し,大規模CWS自然な注釈データを得る方法を提案する。
本稿では,cwsモデル学習における音声からの自然アノテーションを利用するための,単純かつ効果的な完全テントレイン手法を提案する。
クロスドメインおよび低リソースシナリオにおけるCWS性能は、音声から抽出した自然な注釈付きデータを活用することで著しく向上できることを示す。
関連論文リスト
- Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。
我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。
フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T14:46:51Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - Suffix Retrieval-Augmented Language Modeling [1.8710230264817358]
因果語モデリング(LM)は単語履歴を用いて次の単語を予測する。
一方,BERTは文中の双方向の単語情報を用いて,マスキング位置での単語の予測を行う。
本稿では,双方向の文脈効果を自己回帰的にシミュレートする新しいモデルを提案する。
論文 参考訳(メタデータ) (2022-11-06T07:53:19Z) - Knowing Where and What: Unified Word Block Pretraining for Document
Understanding [11.46378901674016]
We propose UTel, a language model with Unified TExt and layout pre-training。
具体的には、レイアウト学習のための単語予測(SWP)と、異なる単語ブロックを特定するための単語埋め込み(CWE)のコントラスト学習の2つの事前学習タスクを提案する。
このようにして、Masked Layout-Language Modeling (MLLM)と2つの新しいタスクの共同トレーニングにより、意味的特徴と空間的特徴を統一的に相互作用させることができる。
論文 参考訳(メタデータ) (2022-07-28T09:43:06Z) - Summ^N: A Multi-Stage Summarization Framework for Long Input Dialogues
and Documents [13.755637074366813]
SummNは、典型的な事前訓練されたLMの最大文脈長よりも長いテキストを入力するための、シンプルで柔軟で効果的な多段階フレームワークである。
LMコンテキストサイズを固定したままステージ数を調整することで任意の長さの入力テキストを処理できる。
実験の結果,SummNは従来の最先端手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-10-16T06:19:54Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。