論文の概要: Codeswitched Sentence Creation using Dependency Parsing
- arxiv url: http://arxiv.org/abs/2012.02990v1
- Date: Sat, 5 Dec 2020 10:00:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-22 12:08:18.731263
- Title: Codeswitched Sentence Creation using Dependency Parsing
- Title(参考訳): 依存構文解析を用いたコード切り換え文生成
- Authors: Dhruval Jain, Arun D Prabhu, Shubham Vatsal, Gopi Ramena, Naresh Purre
- Abstract要約: コードスイッチングは、世界中の多言語話者にまたがる最も一般的な出来事の1つとなっている。
本稿では,英語文法の構文構造を利用して,英語・ヒンディー語・英語・マラティー語・英語・カンナダ語の文法的に意味のあるコード切替版を開発するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Codeswitching has become one of the most common occurrences across
multilingual speakers of the world, especially in countries like India which
encompasses around 23 official languages with the number of bilingual speakers
being around 300 million. The scarcity of Codeswitched data becomes a
bottleneck in the exploration of this domain with respect to various Natural
Language Processing (NLP) tasks. We thus present a novel algorithm which
harnesses the syntactic structure of English grammar to develop grammatically
sensible Codeswitched versions of English-Hindi, English-Marathi and
English-Kannada data. Apart from maintaining the grammatical sanity to a great
extent, our methodology also guarantees abundant generation of data from a
minuscule snapshot of given data. We use multiple datasets to showcase the
capabilities of our algorithm while at the same time we assess the quality of
generated Codeswitched data using some qualitative metrics along with providing
baseline results for couple of NLP tasks.
- Abstract(参考訳): 特にインドのような国では、23の公用語があり、バイリンガルの話者は約3億人である。
Codeswitchedデータの不足は、さまざまな自然言語処理(NLP)タスクに関して、この領域の探索においてボトルネックとなる。
そこで本研究では,英語文法の構文構造を活用し,英語-ヒンディー語,英語-マラティ語,英語-カンナダ語データの文法的に知覚可能なコード切り換え版を開発する新しいアルゴリズムを提案する。
本手法は,文法的な正当性を維持しつつも,与えられたデータの微妙なスナップショットから大量のデータを生成することを保証する。
アルゴリズムの能力を示すために複数のデータセットを使用し、同時に、いくつかの定性的指標を使用して生成されたCodeswitchedデータの品質を評価し、いくつかのNLPタスクのベースライン結果を提供する。
関連論文リスト
- CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - Prompting Towards Alleviating Code-Switched Data Scarcity in Under-Resourced Languages with GPT as a Pivot [1.3741556944830366]
本研究により, GPT 3.5は, 英語, よるば, 英語のコード変更文を生成することができた。
ヨルバのような非ラテン文字を用いた言語の文の質は、アフリカーンス英語の成功率と比較してかなり低い。
本稿では,GPTを用いた合成コードスイッチングデータの多様性向上のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-26T07:44:44Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - Simple yet Effective Code-Switching Language Identification with
Multitask Pre-Training and Transfer Learning [0.7242530499990028]
コードスイッチング(Code-switching)は、カジュアルな設定において、多言語話者が異なる言語の単語を1つの発話で混ぜる言語現象である。
英マンダリン言語指向音声データセットにおける言語識別精度向上のための2つの新しいアプローチを提案する。
我々の最良のモデルでは、実際の英マンダリンのコードスイッチングによる子指向音声コーパスにおいて、0.781のバランスの取れた精度を達成し、以前のベースラインを55.3%上回っている。
論文 参考訳(メタデータ) (2023-05-31T11:43:16Z) - Adversarial synthesis based data-augmentation for code-switched spoken
language identification [0.0]
音声言語識別(LID)は自動音声認識(ASR)の重要なサブタスクである
本研究は、英語と混在するIndic言語に焦点をあてる。
Mel Spectrograms を用いたGANに基づく音声データの拡張手法
論文 参考訳(メタデータ) (2022-05-30T06:41:13Z) - MCoNaLa: A Benchmark for Code Generation from Multiple Natural Languages [76.93265104421559]
英語以外の自然言語コマンドからコード生成をベンチマークします。
スペイン語,日本語,ロシア語の3言語で896個のNLコードペアを注釈した。
難易度はこれらの3つの言語によって異なるが、全てのシステムは英語にかなり遅れている。
論文 参考訳(メタデータ) (2022-03-16T04:21:50Z) - Reducing language context confusion for end-to-end code-switching
automatic speech recognition [50.89821865949395]
本稿では,E2E符号スイッチングASRモデルの多言語コンテキストの混同を低減するための言語関連アテンション機構を提案する。
複数の言語のそれぞれの注意を計算することにより、豊かな単言語データから言語知識を効率的に伝達することができる。
論文 参考訳(メタデータ) (2022-01-28T14:39:29Z) - From Machine Translation to Code-Switching: Generating High-Quality
Code-Switched Text [14.251949110756078]
我々は、現在最先端のニューラルマシン翻訳モデルを適用し、ヒンディー語-英語のコード切替文を生成する。
言語モデリングタスクにおいて,難易度が大幅に低下することを示す。
また、下流のコードスイッチングされた自然言語推論タスクに対して、私たちのテキストを使用した改善を示す。
論文 参考訳(メタデータ) (2021-07-14T04:46:39Z) - Multilingual and code-switching ASR challenges for low resource Indian
languages [59.2906853285309]
インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。
これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。
また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
論文 参考訳(メタデータ) (2021-04-01T03:37:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。