論文の概要: MUTANT: A Multi-sentential Code-mixed Hinglish Dataset
- arxiv url: http://arxiv.org/abs/2302.11766v1
- Date: Thu, 23 Feb 2023 04:04:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-24 16:30:10.637459
- Title: MUTANT: A Multi-sentential Code-mixed Hinglish Dataset
- Title(参考訳): MUTANT:多文コード混在のHinglishデータセット
- Authors: Rahul Gupta, Vivek Srivastava, Mayank Singh
- Abstract要約: 本稿では,多言語記事から多文コード混合テキスト(MCT)を識別する新しいタスクを提案する。
ユースケースとして、多言語の記事を活用し、第一級の多文コード混合Hinglishデータセットを構築します。
MUTANTデータセットは67kの記事と85kのHinglish MCTからなる。
- 参考スコア(独自算出の注目度): 16.14337612590717
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The multi-sentential long sequence textual data unfolds several interesting
research directions pertaining to natural language processing and generation.
Though we observe several high-quality long-sequence datasets for English and
other monolingual languages, there is no significant effort in building such
resources for code-mixed languages such as Hinglish (code-mixing of
Hindi-English). In this paper, we propose a novel task of identifying
multi-sentential code-mixed text (MCT) from multilingual articles. As a use
case, we leverage multilingual articles from two different data sources and
build a first-of-its-kind multi-sentential code-mixed Hinglish dataset i.e.,
MUTANT. We propose a token-level language-aware pipeline and extend the
existing metrics measuring the degree of code-mixing to a multi-sentential
framework and automatically identify MCT in the multilingual articles. The
MUTANT dataset comprises 67k articles with 85k identified Hinglish MCTs. To
facilitate future research, we make the publicly available.
- Abstract(参考訳): マルチセンテンシャル長列テキストデータは、自然言語処理と生成に関連するいくつかの興味深い研究方向を展開する。
英語や他の単言語言語のための高品質なロングシーケンスデータセットはいくつか見てきたが、hinglish(ヒンディー語-英語のコード混合)のようなコード混合言語のためのそのようなリソースを構築することには大きな努力はない。
本稿では,多言語記事から多文コード混合テキスト(MCT)を識別する新しいタスクを提案する。
ユースケースとして,2つの異なるデータソースからの多言語記事を活用して,先駆的な多言語コード混合hinglishデータセット,すなわちミュータントを構築する。
本稿では,トークンレベルの言語認識パイプラインを提案し,マルチセンテンシャルフレームワークにコード混合度を測定する既存のメトリクスを拡張し,多言語記事中のmctを自動的に識別する。
MUTANTデータセットは67kの記事と85kのHinglish MCTからなる。
今後の研究を促進するため、我々は一般公開する。
関連論文リスト
- MMT: A Multilingual and Multi-Topic Indian Social Media Dataset [1.0413233169366503]
ソーシャルメディアは異文化間コミュニケーションにおいて重要な役割を担っている。
多くはコードミキシングと多言語形式で行われる。
我々はTwitterから収集した大規模多言語・マルチトピックデータセット(MMT)を紹介する。
論文 参考訳(メタデータ) (2023-04-02T21:39:00Z) - Prompting Multilingual Large Language Models to Generate Code-Mixed
Texts: The Case of South East Asian Languages [47.78634360870564]
東南アジア7言語(SEA)のコードミキシングデータ生成のための多言語モデルの構築について検討する。
BLOOMZのような多言語学習モデルでは、異なる言語からフレーズや節でテキストを生成できないことが判明した。
ChatGPTは、コード混合テキストの生成において矛盾する機能を示しており、そのパフォーマンスはプロンプトテンプレートと言語ペアリングによって異なる。
論文 参考訳(メタデータ) (2023-03-23T18:16:30Z) - HinGE: A Dataset for Generation and Evaluation of Code-Mixed Hinglish
Text [1.6675267471157407]
我々は、広く普及しているHinglish(ヒンディー語と英語のコードミキシング)のためのコーパス(HinGE)を提示する。
HinGEには、人間が生成するヒングリッシュ文と、平行なヒンディー語文に対応する2つのルールベースのアルゴリズムがある。
さらに,コード混合データ上で広く利用されている評価指標の有効性を実証した。
論文 参考訳(メタデータ) (2021-07-08T11:11:37Z) - Scalable Cross-lingual Document Similarity through Language-specific
Concept Hierarchies [0.0]
本稿では,並列あるいは同等のコーパスを必要としない教師なし文書類似性アルゴリズムを提案する。
このアルゴリズムは、文書から自動的に作成されたトピックを多言語ラベルでアノテートします。
JCR-Acquis corporaの英語、スペイン語、フランス語版で実施された実験は、同様のコンテンツによる文書の分類と分類に関する有望な結果を明らかにします。
論文 参考訳(メタデータ) (2020-12-15T10:42:40Z) - X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained
Language Models [103.75890012041366]
言語モデル(LM)は、事実の知識を捉えるのに驚くほど成功した。
しかし、LMの実際の表現能力の研究は、ほぼ間違いなく英語で行われている。
我々は23の語型的多様言語に対するクローゼスタイルプローブのベンチマークを作成する。
論文 参考訳(メタデータ) (2020-10-13T05:29:56Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot
Cross-Lingual NLP [68.2650714613869]
我々は,mBERTを微調整するための多言語コードスイッチングデータを生成するためのデータ拡張フレームワークを提案する。
既存の研究と比較すると,本手法は訓練にバイリンガル文を頼らず,複数の対象言語に対して1つの学習プロセスしか必要としない。
論文 参考訳(メタデータ) (2020-06-11T13:15:59Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。