論文の概要: Mining Word Boundaries from Speech-Text Parallel Data for Cross-domain Chinese Word Segmentation
- arxiv url: http://arxiv.org/abs/2412.09045v1
- Date: Thu, 12 Dec 2024 08:13:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:33:35.624829
- Title: Mining Word Boundaries from Speech-Text Parallel Data for Cross-domain Chinese Word Segmentation
- Title(参考訳): ドメイン間中国語単語分割のための音声テキスト並列データからの単語境界抽出
- Authors: Xuebin Wang, Lei Zhang, Zhenghua Li, Shilin Zhou, Chen Gong, Yang Hou,
- Abstract要約: 我々はモントリオール強制アリグナー (MFA) ツールキットを用いて文字レベルのアライメントを行う。
収集したポーズの分析に基づいて、信頼できない単語境界をフィルタリングする効果的な確率ベース戦略を提案する。
我々はAISHELL2の評価データとして約1000文を注釈付けした。
- 参考スコア(独自算出の注目度): 22.154557929773617
- License:
- Abstract: Inspired by early research on exploring naturally annotated data for Chinese Word Segmentation (CWS), and also by recent research on integration of speech and text processing, this work for the first time proposes to explicitly mine word boundaries from speech-text parallel data. We employ the Montreal Forced Aligner (MFA) toolkit to perform character-level alignment on speech-text data, giving pauses as candidate word boundaries. Based on detailed analysis of collected pauses, we propose an effective probability-based strategy for filtering unreliable word boundaries. To more effectively utilize word boundaries as extra training data, we also propose a robust complete-then-train (CTT) strategy. We conduct cross-domain CWS experiments on two target domains, i.e., ZX and AISHELL2. We have annotated about 1,000 sentences as the evaluation data of AISHELL2. Experiments demonstrate the effectiveness of our proposed approach.
- Abstract(参考訳): 中国語単語セグメンテーション(CWS)の自然な注釈付きデータを探索する初期の研究や、音声とテキスト処理の統合に関する最近の研究から着想を得たこの研究は、音声テキスト並列データから単語境界を明示的にマイニングすることを提案する。
我々はモントリオール強制アリグナー (MFA) ツールキットを用いて音声テキストデータに文字レベルのアライメントを行い、候補単語境界として停止を与える。
収集したポーズの詳細な分析に基づいて、信頼できない単語境界をフィルタリングする効果的な確率ベース戦略を提案する。
また, 単語境界をより効果的に活用するために, 頑健な完全列列(CTT)戦略を提案する。
我々は、2つの対象ドメイン、すなわちZXとAISHELL2上でクロスドメインCWS実験を行う。
我々はAISHELL2の評価データとして約1000文を注釈付けした。
提案手法の有効性を示す実験を行った。
関連論文リスト
- Scalable and Domain-General Abstractive Proposition Segmentation [20.532804009152255]
我々は、抽象命題セグメンテーション(APS)の課題に焦点を合わせ、テキストを単純で自己完結した、よく表現された文に変換する。
まず、タスクの評価基準を導入し、いくつかの品質の次元を計測する。
次に、スケーラブルで正確な命題セグメンテーションモデルを提案する。
論文 参考訳(メタデータ) (2024-06-28T10:24:31Z) - Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text [61.22649031769564]
我々は、新しいフレームワーク、パラフレーズテキストスパン検出(PTD)を提案する。
PTDは、テキスト内でパラフレーズ付きテキストを識別することを目的としている。
パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。
論文 参考訳(メタデータ) (2024-05-21T11:22:27Z) - Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。
我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。
フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T14:46:51Z) - Augmenting text for spoken language understanding with Large Language
Models [13.240782495441275]
対応する音声を使わずに書き起こし構文解析データ(未ペアテキスト)の使い方を示す。
実験の結果、既存のドメインと新しいドメインの未ペアテキストは、絶対的エクサクトマッチ(EM)において、それぞれ2%と30%の性能を向上させることがわかった。
本稿では,既存のドメインや新しいドメインに対する未ペアテキストを生成するために,LLM(Large Language Models)を提案する。
論文 参考訳(メタデータ) (2023-09-17T22:25:34Z) - Mining Word Boundaries in Speech as Naturally Annotated Word
Segmentation Data [41.494096583913105]
中国語単語セグメンテーション(CWS)の自然な注釈付きデータの探索に触発されたこの研究は、パラレル音声/テキストデータから単語境界を抽出することを提案する。
まず、実験で使用したCWSデータに関連する2つのインターネットソースから、並列音声/テキストデータを収集する。
隣接する文字間の停止時間に応じて単語境界を決定するための文字レベルのアライメントと簡単なルールを設計する。
論文 参考訳(メタデータ) (2022-10-31T08:02:21Z) - Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。
この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。
また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T23:35:45Z) - Extracting and filtering paraphrases by bridging natural language
inference and paraphrasing [0.0]
本研究では,NLIデータセットからパラフレージングデータセットを抽出し,既存のパラフレージングデータセットをクリーニングするための新しい手法を提案する。
その結果,既存の2つのパラフレージングデータセットにおいて,抽出したパラフレージングデータセットの品質と驚くほど高いノイズレベルが示された。
論文 参考訳(メタデータ) (2021-11-13T14:06:37Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。