論文の概要: Where's the Point? Self-Supervised Multilingual Punctuation-Agnostic
Sentence Segmentation
- arxiv url: http://arxiv.org/abs/2305.18893v1
- Date: Tue, 30 May 2023 09:49:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 17:12:00.918302
- Title: Where's the Point? Self-Supervised Multilingual Punctuation-Agnostic
Sentence Segmentation
- Title(参考訳): ポイントはどこにありますか。
自己監督型多言語句読解-不可知文セグメンテーション
- Authors: Benjamin Minixhofer, Jonas Pfeiffer, Ivan Vuli\'c
- Abstract要約: 85言語を対象とした多言語句読解文セグメンテーション法を提案する。
提案手法は,従来の最良文分割ツールを平均6.1%F1ポイントで上回っている。
MTモデルの訓練に使用するセグメンテーションと文のセグメンテーションを一致させる手法を用いて,平均2.3BLEU点の改善を実現する。
- 参考スコア(独自算出の注目度): 65.6736056006381
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many NLP pipelines split text into sentences as one of the crucial
preprocessing steps. Prior sentence segmentation tools either rely on
punctuation or require a considerable amount of sentence-segmented training
data: both central assumptions might fail when porting sentence segmenters to
diverse languages on a massive scale. In this work, we thus introduce a
multilingual punctuation-agnostic sentence segmentation method, currently
covering 85 languages, trained in a self-supervised fashion on unsegmented
text, by making use of newline characters which implicitly perform segmentation
into paragraphs. We further propose an approach that adapts our method to the
segmentation in a given corpus by using only a small number (64-256) of
sentence-segmented examples. The main results indicate that our method
outperforms all the prior best sentence-segmentation tools by an average of
6.1% F1 points. Furthermore, we demonstrate that proper sentence segmentation
has a point: the use of a (powerful) sentence segmenter makes a considerable
difference for a downstream application such as machine translation (MT). By
using our method to match sentence segmentation to the segmentation used during
training of MT models, we achieve an average improvement of 2.3 BLEU points
over the best prior segmentation tool, as well as massive gains over a trivial
segmenter that splits text into equally sized blocks.
- Abstract(参考訳): 多くのNLPパイプラインはテキストを文に分割し、重要な前処理ステップの1つとなった。
前の文セグメンテーションツールは句読点に依存するか、あるいはかなりの量の文セグメンテーショントレーニングデータを必要とする。
そこで本研究では,現在85言語にまたがる多言語句読点非依存の文節分割法を紹介し,節分割を暗黙的に行なえる新文を用いた。
さらに,文分割例の少ない数 (64-256) を用いて,与えられたコーパスのセグメント化に我々の手法を適用する手法を提案する。
その結果,本手法は従来の最良文分割ツールを平均6.1%F1ポイントで上回る結果となった。
さらに, 機械翻訳 (mt) のような下流アプリケーションでは, (強力な) 文セグメンタの使用が相当な差をもたらすこと, 適切な文セグメンテーションにはポイントがあることを示す。
mtモデルのトレーニングに使用するセグメント化と文分割をマッチングする手法を用いることで、最善の事前セグメンテーションツールに対する2.3 bleu点の平均改善と、テキストを等サイズのブロックに分割する自明なセグメンテーションに対する大幅な向上を実現する。
関連論文リスト
- SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural
Machine Translation [51.881877192924414]
サブワードセグメンテーションはニューラルマシン翻訳(NMT)に不可欠な前処理ステップである
本稿では,自己教師型ニューラルネットワークサブワードセグメンテーション手法であるSelfSegを紹介する。
SelfSegはトレーニング/デコードがはるかに高速で、並列コーパスの代わりに単言語辞書のみを必要とする。
論文 参考訳(メタデータ) (2023-07-31T04:38:47Z) - Subword Segmental Machine Translation: Unifying Segmentation and Target
Sentence Generation [7.252933737829635]
サブワードセグメント機械翻訳(SSMT)は、目標文を生成するために共同学習しながら、ターゲット文をセグメント化することを学ぶ。
6つの翻訳方向にわたる実験により、SSMTは形態学的にリッチな凝集言語に対するchrFスコアを改善することが示された。
論文 参考訳(メタデータ) (2023-05-11T17:44:29Z) - Speech Segmentation Optimization using Segmented Bilingual Speech Corpus
for End-to-end Speech Translation [16.630616128169372]
セグメント化バイリンガル音声コーパスを用いて訓練された二分分類モデルを用いた音声セグメント化手法を提案する。
実験の結果,提案手法は従来のセグメンテーション法よりもカスケードおよびエンド・ツー・エンドのSTシステムに適していることがわかった。
論文 参考訳(メタデータ) (2022-03-29T12:26:56Z) - SHAS: Approaching optimal Segmentation for End-to-End Speech Translation [0.0]
音声翻訳モデルは、TEDトークのような短いセグメントに分けられる長いオーディオを直接処理することはできない。
本稿では,手動分割音声コーパスから最適なセグメンテーションを効果的に学習する手法であるSupervised Hybrid Audio (SHAS)を提案する。
MuST-CとmTEDxの実験では、SHASは手動セグメンテーションのBLEUスコアの95-98%を維持している。
論文 参考訳(メタデータ) (2022-02-09T23:55:25Z) - The devil is in the labels: Semantic segmentation from sentences [106.52405522077841]
ゼロショット設定に適用した場合、最先端の教師付き性能を実現するセマンティックセマンティックセマンティクスへのアプローチを提案する。
これは各クラスラベルを、クラスを記述する短い段落のベクトル値の埋め込みに置き換えることによって達成される。
結果として得られた200万以上の画像の統合セマンティックセグメンテーションデータセットは、7つのベンチマークデータセット上の最先端の教師付きメソッドと同等のパフォーマンスを達成するモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2022-02-04T07:19:09Z) - Neural Sequence Segmentation as Determining the Leftmost Segments [25.378188980430256]
自然言語文をセグメントレベルで段階的に分割する新しい枠組みを提案する。
セグメンテーションのすべてのステップにおいて、残りのシーケンスの一番左のセグメントを認識する。
3つのデータセットにまたがる構文的チャンキングと中国語のパート・オブ・スパイチ・タギングに関する広範な実験を行った。
論文 参考訳(メタデータ) (2021-04-15T03:35:03Z) - Multi-view Subword Regularization [111.04350390045705]
マルチビューサブワード正規化(MVR)は、標準でトークン化された入力と確率的セグメンテーションとの整合性を強制する手法です。
XTREMEマルチ言語ベンチマークの結果は、MVRが標準セグメンテーションアルゴリズムよりも最大2.5ポイントの一貫性のある改善をもたらすことを示している。
論文 参考訳(メタデータ) (2021-03-15T16:07:42Z) - A Differentiable Relaxation of Graph Segmentation and Alignment for AMR
Parsing [75.36126971685034]
我々は、アライメントとセグメンテーションをモデルの潜在変数として扱い、エンドツーエンドのトレーニングの一部としてそれらを誘導する。
また,AMRの個々の構造を扱うために手作りされたLyu2018AMRPAのセグメンテーションルールに依存するモデルにもアプローチした。
論文 参考訳(メタデータ) (2020-10-23T21:22:50Z) - Contextualized Translation of Automatically Segmented Speech [20.334746967390164]
ランダムにセグメント化されたデータに基づいてモデルをトレーニングし、ファインチューニングとコンテキストとして前のセグメントを追加するという2つのアプローチを比較します。
我々の解は、VAD-segmentedの入力に対してより堅牢であり、強いベースモデルと最大4.25 BLEUポイントで設定された英独テストの異なるVADセグメンテーションの微調整よりも優れている。
論文 参考訳(メタデータ) (2020-08-05T17:52:25Z) - Dynamic Programming Encoding for Subword Segmentation in Neural Machine
Translation [80.38621085548013]
本稿では,文をサブワード単位にトークン化するための新しいセグメンテーションアルゴリズムである動的プログラミング(DPE)を提案する。
ターゲットセグメンテーションを見つけるために、正確なログ境界推定と正確なMAP推定を可能にする混合文字サブワード変換器を提案する。
論文 参考訳(メタデータ) (2020-05-03T05:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。