論文の概要: Where's the Point? Self-Supervised Multilingual Punctuation-Agnostic
Sentence Segmentation
- arxiv url: http://arxiv.org/abs/2305.18893v1
- Date: Tue, 30 May 2023 09:49:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 17:12:00.918302
- Title: Where's the Point? Self-Supervised Multilingual Punctuation-Agnostic
Sentence Segmentation
- Title(参考訳): ポイントはどこにありますか。
自己監督型多言語句読解-不可知文セグメンテーション
- Authors: Benjamin Minixhofer, Jonas Pfeiffer, Ivan Vuli\'c
- Abstract要約: 85言語を対象とした多言語句読解文セグメンテーション法を提案する。
提案手法は,従来の最良文分割ツールを平均6.1%F1ポイントで上回っている。
MTモデルの訓練に使用するセグメンテーションと文のセグメンテーションを一致させる手法を用いて,平均2.3BLEU点の改善を実現する。
- 参考スコア(独自算出の注目度): 65.6736056006381
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many NLP pipelines split text into sentences as one of the crucial
preprocessing steps. Prior sentence segmentation tools either rely on
punctuation or require a considerable amount of sentence-segmented training
data: both central assumptions might fail when porting sentence segmenters to
diverse languages on a massive scale. In this work, we thus introduce a
multilingual punctuation-agnostic sentence segmentation method, currently
covering 85 languages, trained in a self-supervised fashion on unsegmented
text, by making use of newline characters which implicitly perform segmentation
into paragraphs. We further propose an approach that adapts our method to the
segmentation in a given corpus by using only a small number (64-256) of
sentence-segmented examples. The main results indicate that our method
outperforms all the prior best sentence-segmentation tools by an average of
6.1% F1 points. Furthermore, we demonstrate that proper sentence segmentation
has a point: the use of a (powerful) sentence segmenter makes a considerable
difference for a downstream application such as machine translation (MT). By
using our method to match sentence segmentation to the segmentation used during
training of MT models, we achieve an average improvement of 2.3 BLEU points
over the best prior segmentation tool, as well as massive gains over a trivial
segmenter that splits text into equally sized blocks.
- Abstract(参考訳): 多くのNLPパイプラインはテキストを文に分割し、重要な前処理ステップの1つとなった。
前の文セグメンテーションツールは句読点に依存するか、あるいはかなりの量の文セグメンテーショントレーニングデータを必要とする。
そこで本研究では,現在85言語にまたがる多言語句読点非依存の文節分割法を紹介し,節分割を暗黙的に行なえる新文を用いた。
さらに,文分割例の少ない数 (64-256) を用いて,与えられたコーパスのセグメント化に我々の手法を適用する手法を提案する。
その結果,本手法は従来の最良文分割ツールを平均6.1%F1ポイントで上回る結果となった。
さらに, 機械翻訳 (mt) のような下流アプリケーションでは, (強力な) 文セグメンタの使用が相当な差をもたらすこと, 適切な文セグメンテーションにはポイントがあることを示す。
mtモデルのトレーニングに使用するセグメント化と文分割をマッチングする手法を用いることで、最善の事前セグメンテーションツールに対する2.3 bleu点の平均改善と、テキストを等サイズのブロックに分割する自明なセグメンテーションに対する大幅な向上を実現する。
関連論文リスト
- Scalable and Domain-General Abstractive Proposition Segmentation [20.532804009152255]
我々は、抽象命題セグメンテーション(APS)の課題に焦点を合わせ、テキストを単純で自己完結した、よく表現された文に変換する。
まず、タスクの評価基準を導入し、いくつかの品質の次元を計測する。
次に、スケーラブルで正確な命題セグメンテーションモデルを提案する。
論文 参考訳(メタデータ) (2024-06-28T10:24:31Z) - Segment Any Text: A Universal Approach for Robust, Efficient and Adaptable Sentence Segmentation [9.703886326323644]
この問題を解決するために、新しいモデル、Segment any Text (SaT)を導入します。
頑健性を高めるため,句読点への依存度を低くする事前学習方式を提案する。
適応性に対処するために、パラメータ効率の良い微調整の余分な段階を導入し、異なる領域で最先端の性能を確立する。
論文 参考訳(メタデータ) (2024-06-24T14:36:11Z) - Lexically Grounded Subword Segmentation [0.0]
トークン化とサブワードセグメンテーションの3つの革新を提示する。
まず,Morfessorを用いた教師なし形態素解析を事前学習に用いることを提案する。
第二に、単語埋め込み空間に接地したサブワード埋め込みを得る方法を提案する。
第3に,単語ビッグラムモデルに基づく効率的なセグメンテーションアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-19T13:48:19Z) - SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural
Machine Translation [51.881877192924414]
サブワードセグメンテーションはニューラルマシン翻訳(NMT)に不可欠な前処理ステップである
本稿では,自己教師型ニューラルネットワークサブワードセグメンテーション手法であるSelfSegを紹介する。
SelfSegはトレーニング/デコードがはるかに高速で、並列コーパスの代わりに単言語辞書のみを必要とする。
論文 参考訳(メタデータ) (2023-07-31T04:38:47Z) - Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。
トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z) - Speech Segmentation Optimization using Segmented Bilingual Speech Corpus
for End-to-end Speech Translation [16.630616128169372]
セグメント化バイリンガル音声コーパスを用いて訓練された二分分類モデルを用いた音声セグメント化手法を提案する。
実験の結果,提案手法は従来のセグメンテーション法よりもカスケードおよびエンド・ツー・エンドのSTシステムに適していることがわかった。
論文 参考訳(メタデータ) (2022-03-29T12:26:56Z) - SHAS: Approaching optimal Segmentation for End-to-End Speech Translation [0.0]
音声翻訳モデルは、TEDトークのような短いセグメントに分けられる長いオーディオを直接処理することはできない。
本稿では,手動分割音声コーパスから最適なセグメンテーションを効果的に学習する手法であるSupervised Hybrid Audio (SHAS)を提案する。
MuST-CとmTEDxの実験では、SHASは手動セグメンテーションのBLEUスコアの95-98%を維持している。
論文 参考訳(メタデータ) (2022-02-09T23:55:25Z) - Multi-view Subword Regularization [111.04350390045705]
マルチビューサブワード正規化(MVR)は、標準でトークン化された入力と確率的セグメンテーションとの整合性を強制する手法です。
XTREMEマルチ言語ベンチマークの結果は、MVRが標準セグメンテーションアルゴリズムよりも最大2.5ポイントの一貫性のある改善をもたらすことを示している。
論文 参考訳(メタデータ) (2021-03-15T16:07:42Z) - A Differentiable Relaxation of Graph Segmentation and Alignment for AMR
Parsing [75.36126971685034]
我々は、アライメントとセグメンテーションをモデルの潜在変数として扱い、エンドツーエンドのトレーニングの一部としてそれらを誘導する。
また,AMRの個々の構造を扱うために手作りされたLyu2018AMRPAのセグメンテーションルールに依存するモデルにもアプローチした。
論文 参考訳(メタデータ) (2020-10-23T21:22:50Z) - Dynamic Programming Encoding for Subword Segmentation in Neural Machine
Translation [80.38621085548013]
本稿では,文をサブワード単位にトークン化するための新しいセグメンテーションアルゴリズムである動的プログラミング(DPE)を提案する。
ターゲットセグメンテーションを見つけるために、正確なログ境界推定と正確なMAP推定を可能にする混合文字サブワード変換器を提案する。
論文 参考訳(メタデータ) (2020-05-03T05:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。