論文の概要: hinglishNorm -- A Corpus of Hindi-English Code Mixed Sentences for Text
Normalization
- arxiv url: http://arxiv.org/abs/2010.08974v1
- Date: Sun, 18 Oct 2020 12:21:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 04:14:58.782774
- Title: hinglishNorm -- A Corpus of Hindi-English Code Mixed Sentences for Text
Normalization
- Title(参考訳): hinglishNorm -- テキスト正規化のためのヒンディー語の混成文コーパス
- Authors: Piyush Makhija, Ankit Kumar, Anuj Gupta
- Abstract要約: HinglishNormは、Hindi- English code-mixed sentencesの人間の注釈付きコーパスで、テキスト正規化タスクを行う。
We obtained a Word Error Rate (WER) of 15.55, biLingual Evaluation Understudy (BLEU) score of 71.2, and Metric for Evaluation of Translation with Explicit ordering (METEOR) score of 0.50。
- 参考スコア(独自算出の注目度): 9.140423191799423
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present hinglishNorm -- a human annotated corpus of Hindi-English
code-mixed sentences for text normalization task. Each sentence in the corpus
is aligned to its corresponding human annotated normalized form. To the best of
our knowledge, there is no corpus of Hindi-English code-mixed sentences for
text normalization task that is publicly available. Our work is the first
attempt in this direction. The corpus contains 13494 parallel segments.
Further, we present baseline normalization results on this corpus. We obtain a
Word Error Rate (WER) of 15.55, BiLingual Evaluation Understudy (BLEU) score of
71.2, and Metric for Evaluation of Translation with Explicit ORdering (METEOR)
score of 0.50.
- Abstract(参考訳): 本稿ではhinglishnormについて述べる。hinglishnormはhinglishnormという、ヒンズー語と英語の混成文による、テキストの正規化タスクのための注釈付きコーパスである。
コーパスの各文は、対応するヒトの注釈付き正規化形式に一致している。
我々の知る限りでは、Hindi- English code-mixed sentences for text normalization task のコーパスは存在しない。
私たちの仕事は、この方向の最初の試みです。
コーパスは13494の並列セグメントを含む。
さらに,本コーパスにベースライン正規化結果を示す。
単語誤り率(wer)は15.55、二言語評価下評価スコア(bleu)スコア(bleu)スコア(71.2)、明示順序(meteor)スコア0.50の翻訳評価用メトリクスを得る。
関連論文リスト
- Tibyan Corpus: Balanced and Comprehensive Error Coverage Corpus Using ChatGPT for Arabic Grammatical Error Correction [0.32885740436059047]
本研究の目的は,ChatGPTを用いた文法的誤り訂正のためのアラビア語コーパス"Tibyan"を開発することである。
ChatGPTは、アラビア語の本から抽出された誤りのない文と一致した文法的な誤りを含む一対のアラビア語の文に基づいてデータ拡張ツールとして使用される。
私たちのコーパスには、正書法、構文、意味論、句読法、形態学、分割という7つのタイプを含む49のエラーが含まれていました。
論文 参考訳(メタデータ) (2024-11-07T10:17:40Z) - ViLexNorm: A Lexical Normalization Corpus for Vietnamese Social Media
Text [1.1842520528140819]
ベトナムの語彙正規化タスクのために開発された最初のコーパスであるベトナム語語彙正規化(ViLexNorm)を紹介する。
このコーパスは、ベトナムで最も人気のあるソーシャルメディアプラットフォームに関する公のコメントから引用された、人間の注釈によって丁寧に注釈付けされた1万件以上の文で構成されている。
論文 参考訳(メタデータ) (2024-01-29T18:41:39Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - Transformer-based Model for Word Level Language Identification in
Code-mixed Kannada-English Texts [55.41644538483948]
コードミキシングしたカンナダ英語テキストにおける単語レベル言語識別のためのトランスフォーマーベースモデルを提案する。
The proposed model on the CoLI-Kenglish dataset achieves a weighted F1-score of 0.84 and a macro F1-score of 0.61。
論文 参考訳(メタデータ) (2022-11-26T02:39:19Z) - The Effect of Normalization for Bi-directional Amharic-English Neural
Machine Translation [53.907805815477126]
本稿では,比較的大規模なアムハラ語-英語並列文データセットを提案する。
我々は、既存のFacebook M2M100事前学習モデルを微調整することで、双方向のアムハラ語翻訳モデルを構築する。
その結果, 両方向のアンハラ語・英語機械翻訳の性能は, アンハラ語ホモホン文字の正規化により向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-27T07:18:53Z) - Rethink about the Word-level Quality Estimation for Machine Translation
from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。
本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。
その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文 参考訳(メタデータ) (2022-09-13T02:37:12Z) - RuCoCo: a new Russian corpus with coreference annotation [69.3939291118954]
我々は、コア参照アノテーションを持つ新しいコーパス、ロシアコア参照コーパス(RuCoCo)を提案する。
RuCoCoにはロシア語のニューステキストが含まれており、一部はスクラッチから注釈付けされ、残りは人間のアノテーションによって機械生成のアノテーションが洗練されている。
コーパスのサイズは100万語で、約15万人が言及している。
論文 参考訳(メタデータ) (2022-06-10T07:50:09Z) - An analysis of full-size Russian complexly NER labelled corpus of
Internet user reviews on the drugs based on deep learning and language neural
nets [94.37521840642141]
我々は、インターネットユーザーレビューのフルサイズのロシアの複雑なNERラベルコーパスを提示します。
高度なディープラーニングニューラルネットワークセットは、ロシアのテキストから薬理学的に有意義な実体を抽出するために使用される。
論文 参考訳(メタデータ) (2021-04-30T19:46:24Z) - Corpus Creation for Sentiment Analysis in Code-Mixed Tamil-English Text [0.9235531183915556]
YouTubeのコメント投稿15,744件を含む,コード変更による感情注釈付きコーパスを作成します。
本稿では,コーパスの作成と極性を割り当てるプロセスについて述べる。
本稿では,このコーパスでトレーニングした感情分析の結果をベンチマークとして,アノテーション間の合意を提示する。
論文 参考訳(メタデータ) (2020-05-30T07:17:27Z) - LiSSS: A toy corpus of Spanish Literary Sentences for Emotions detection [1.5356167668895644]
このコーパスは,愛,恐怖,幸福,怒り,悲しみ/痛みという感情のセットで,文章を手作業で分類することで構成する。
LISSSコーパスは、CCライクなアルゴリズムの評価や作成のための無料リソースとして、コミュニティに提供される。
論文 参考訳(メタデータ) (2020-05-17T11:14:30Z) - PHINC: A Parallel Hinglish Social Media Code-Mixed Corpus for Machine
Translation [1.2301855531996841]
本稿では,13,738のコード混成英語・ヒンディー語文の並列コーパスとその英訳について述べる。
文の翻訳はアノテータが手作業で行う。
我々は、コードミキシング機械翻訳における将来の研究機会を促進するために、並列コーパスをリリースしています。
論文 参考訳(メタデータ) (2020-04-20T17:04:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。