論文の概要: Mining Word Boundaries in Speech as Naturally Annotated Word
Segmentation Data
- arxiv url: http://arxiv.org/abs/2210.17122v2
- Date: Mon, 30 Oct 2023 11:11:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 04:34:11.845605
- Title: Mining Word Boundaries in Speech as Naturally Annotated Word
Segmentation Data
- Title(参考訳): 自然な注釈付き単語セグメンテーションデータとしての音声における単語境界の抽出
- Authors: Lei Zhang, Zhenghua Li, Shilin Zhou, Chen Gong, Zhefeng Wang, Baoxing
Huai, Min Zhang
- Abstract要約: 中国語単語セグメンテーション(CWS)の自然な注釈付きデータの探索に触発されたこの研究は、パラレル音声/テキストデータから単語境界を抽出することを提案する。
まず、実験で使用したCWSデータに関連する2つのインターネットソースから、並列音声/テキストデータを収集する。
隣接する文字間の停止時間に応じて単語境界を決定するための文字レベルのアライメントと簡単なルールを設計する。
- 参考スコア(独自算出の注目度): 41.494096583913105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inspired by early research on exploring naturally annotated data for Chinese
word segmentation (CWS), and also by recent research on integration of speech
and text processing, this work for the first time proposes to mine word
boundaries from parallel speech/text data. First we collect parallel
speech/text data from two Internet sources that are related with CWS data used
in our experiments. Then, we obtain character-level alignments and design
simple heuristic rules for determining word boundaries according to pause
duration between adjacent characters. Finally, we present an effective
complete-then-train strategy that can better utilize extra naturally annotated
data for model training. Experiments demonstrate our approach can significantly
boost CWS performance in both cross-domain and low-resource scenarios.
- Abstract(参考訳): 中国語単語セグメンテーション(CWS)のための自然な注釈付きデータ探索の初期の研究や、音声とテキスト処理の統合に関する最近の研究から着想を得たこの研究は、初めてパラレル音声/テキストデータから単語境界をマイニングすることを提案する。
まず、実験で使用したCWSデータに関連する2つのインターネットソースから、並列音声/テキストデータを収集する。
そして,文字レベルのアライメントを取得し,隣接する文字間の停止時間に応じて単語境界を決定するための単純なヒューリスティックなルールを設計する。
最後に,モデルトレーニングに自然に付加したデータをより有効に活用できる,効果的な完全列学習戦略を提案する。
実験によると、このアプローチはクロスドメインと低リソースの両方のシナリオでcwsのパフォーマンスを著しく向上させる。
関連論文リスト
- Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。
我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。
フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T14:46:51Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - Suffix Retrieval-Augmented Language Modeling [1.8710230264817358]
因果語モデリング(LM)は単語履歴を用いて次の単語を予測する。
一方,BERTは文中の双方向の単語情報を用いて,マスキング位置での単語の予測を行う。
本稿では,双方向の文脈効果を自己回帰的にシミュレートする新しいモデルを提案する。
論文 参考訳(メタデータ) (2022-11-06T07:53:19Z) - Knowing Where and What: Unified Word Block Pretraining for Document
Understanding [11.46378901674016]
We propose UTel, a language model with Unified TExt and layout pre-training。
具体的には、レイアウト学習のための単語予測(SWP)と、異なる単語ブロックを特定するための単語埋め込み(CWE)のコントラスト学習の2つの事前学習タスクを提案する。
このようにして、Masked Layout-Language Modeling (MLLM)と2つの新しいタスクの共同トレーニングにより、意味的特徴と空間的特徴を統一的に相互作用させることができる。
論文 参考訳(メタデータ) (2022-07-28T09:43:06Z) - Summ^N: A Multi-Stage Summarization Framework for Long Input Dialogues
and Documents [13.755637074366813]
SummNは、典型的な事前訓練されたLMの最大文脈長よりも長いテキストを入力するための、シンプルで柔軟で効果的な多段階フレームワークである。
LMコンテキストサイズを固定したままステージ数を調整することで任意の長さの入力テキストを処理できる。
実験の結果,SummNは従来の最先端手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-10-16T06:19:54Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。