論文の概要: Evaluating Sentence Segmentation and Word Tokenization Systems on
Estonian Web Texts
- arxiv url: http://arxiv.org/abs/2011.07868v1
- Date: Mon, 16 Nov 2020 11:13:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 00:05:05.551976
- Title: Evaluating Sentence Segmentation and Word Tokenization Systems on
Estonian Web Texts
- Title(参考訳): エストニア語 web テキストにおける文分割と単語トークン化システムの評価
- Authors: Kairit Sirts and Kairit Peekman
- Abstract要約: まずエストニアのWebデータセットの文境界のマニュアルアノテーションを記述する。
次に,このコーパス上で既存の3つの文セグメント化と単語トークン化システムの評価結果を示す。
- 参考スコア(独自算出の注目度): 0.533024001730262
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Texts obtained from web are noisy and do not necessarily follow the
orthographic sentence and word boundary rules. Thus, sentence segmentation and
word tokenization systems that have been developed on well-formed texts might
not perform so well on unedited web texts. In this paper, we first describe the
manual annotation of sentence boundaries of an Estonian web dataset and then
present the evaluation results of three existing sentence segmentation and word
tokenization systems on this corpus: EstNLTK, Stanza and UDPipe. While EstNLTK
obtains the highest performance compared to other systems on sentence
segmentation on this dataset, the sentence segmentation performance of Stanza
and UDPipe remains well below the results obtained on the more well-formed
Estonian UD test set.
- Abstract(参考訳): webから得られるテキストはノイズが多く、必ずしも正書文や単語境界規則に従わない。
したがって、文のセグメンテーションや単語のトークン化システムは、未編集のWebテキストではうまく機能しない可能性がある。
本稿では,エストニアのWebデータセットの文境界のマニュアルアノテーションをまず記述し,EstNLTK,Stanza,UDPipeの3つの既存の文セグメント化および単語トークン化システムの評価結果を示す。
EstNLTKは、このデータセットの他の文セグメント化システムと比較して高い性能を得るが、StanzaとUDPipeの文セグメント化性能は、よりよく形成されたエストニアのUDテストセットで得られた結果よりかなり低い。
関連論文リスト
- Grammar Induction from Visual, Speech and Text [91.98797120799227]
本研究は、新しい視覚音声テキスト文法誘導タスク(textbfVAT-GI)を導入する。
言語文法がテキストを超えて存在するという事実に触発されて、テキストは文法帰納において支配的なモダリティであってはならないと論じる。
そこで本稿では,豊富なモーダル特化機能と補完機能を有効文法解析に活用した,ビジュアル・オーディオ・テキスト・インサイド・アウトサイド・オートエンコーダ(textbfVaTiora)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-01T02:24:18Z) - An Evaluation of Sindhi Word Embedding in Semantic Analogies and Downstream Tasks [2.3624125155742064]
我々は,複数のWebリソースから6100万以上の単語をクロールする新しい単語埋め込み型コーパスを提案する。
クロールデータから不要なテキストをフィルタリングするための前処理パイプラインを設計する。
クリーニングされた語彙は、最先端の連続バグ・オブ・ワード、スキップグラム、GloVeワード埋め込みアルゴリズムに供給される。
論文 参考訳(メタデータ) (2024-08-28T11:36:29Z) - Fusion approaches for emotion recognition from speech using acoustic and text-based features [15.186937600119897]
音声とテキストを用いた音声から感情を分類する手法について検討した。
音声とテキストのモダリティを組み合わせる戦略を比較し,IEMOCAPとMPP-PODCASTデータセット上で評価する。
IEMOCAPでは,クロスバリデーション・フォールドの定義に使用される基準が結果に大きく影響していることを示す。
論文 参考訳(メタデータ) (2024-03-27T14:40:25Z) - Identifying Context-Dependent Translations for Evaluation Set Production [11.543673351369183]
文脈対応機械翻訳への移行に対する大きな障害は、優れた評価指標とテストセットがないことである。
我々は,5つの現象を翻訳するために文脈を必要とする文を含む並列文書のサブセットを識別するツールであるCTXPROを開発した。
パイプラインへの入力は、文脈的な文ペアを選択する手作り、言語ごと、言語的にインフォームドされたルールのセットである。
論文 参考訳(メタデータ) (2023-11-04T04:29:08Z) - Sentiment-Aware Word and Sentence Level Pre-training for Sentiment
Analysis [64.70116276295609]
SentiWSPは、WordレベルとSentenceレベルの事前トレーニングタスクを組み合わせた、Sentiment対応の事前トレーニング言語モデルである。
SentiWSPは、様々な文レベルおよびアスペクトレベルの感情分類ベンチマーク上で、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2022-10-18T12:25:29Z) - InfoCSE: Information-aggregated Contrastive Learning of Sentence
Embeddings [61.77760317554826]
本稿では,教師なし文の埋め込みを学習するための情報型コントラスト学習フレームワーク InfoCSE を提案する。
提案したInfoCSEを,セマンティックテキスト類似性(STS)タスクを用いて,いくつかのベンチマークデータセット上で評価する。
実験の結果, InfoCSE は BERT ベースでは2.60%, BERT 大規模では1.77% でSimCSE より優れていた。
論文 参考訳(メタデータ) (2022-10-08T15:53:19Z) - Non-Parametric Domain Adaptation for End-to-End Speech Translation [72.37869362559212]
E2E-ST(End-to-End Speech Translation)は、エラー伝播の低減、レイテンシの低減、パラメータの削減などにより注目されている。
本稿では,E2E-STシステムのドメイン適応を実現するために,ドメイン固有のテキスト翻訳コーパスを活用する新しい非パラメトリック手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T11:41:02Z) - Example-Based Machine Translation from Text to a Hierarchical
Representation of Sign Language [1.3999481573773074]
本稿では,テキスト・トゥ・サイン翻訳の原本について述べる。
これは、AZeeにおける手話ビデオのテキストと階層的な形式記述の間のアライメントのドメイン固有の並列コーパスを使用して、データの不足を補う。
提案アルゴリズムは、ソーステキストに存在する類似性の検出に基づいて、整列セグメントのマッチングと置換を利用して、複数の候補翻訳を構築する。
結果として得られる翻訳は、アバターシステムへの入力として使用されるように設計されたAZee式(英語版)の形式である。
論文 参考訳(メタデータ) (2022-05-06T15:48:43Z) - BURT: BERT-inspired Universal Representation from Twin Structure [89.82415322763475]
BURT (BERT inspired Universal Representation from Twin Structure) は任意の粒度の入力シーケンスに対して普遍的で固定サイズの表現を生成することができる。
提案するBURTは,Siameseネットワークを採用し,自然言語推論データセットから文レベル表現を学習し,パラフレーズ化データセットから単語/フレーズレベル表現を学習する。
我々は,STSタスク,SemEval2013 Task 5(a) など,テキスト類似性タスクの粒度によってBURTを評価する。
論文 参考訳(メタデータ) (2020-04-29T04:01:52Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。