論文の概要: From Machine Translation to Code-Switching: Generating High-Quality
Code-Switched Text
- arxiv url: http://arxiv.org/abs/2107.06483v1
- Date: Wed, 14 Jul 2021 04:46:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-16 00:22:34.919001
- Title: From Machine Translation to Code-Switching: Generating High-Quality
Code-Switched Text
- Title(参考訳): 機械翻訳からコードスイッチングへ:高品質なコードスイッチトテキストを生成する
- Authors: Ishan Tarunesh, Syamantak Kumar, Preethi Jyothi
- Abstract要約: 我々は、現在最先端のニューラルマシン翻訳モデルを適用し、ヒンディー語-英語のコード切替文を生成する。
言語モデリングタスクにおいて,難易度が大幅に低下することを示す。
また、下流のコードスイッチングされた自然言語推論タスクに対して、私たちのテキストを使用した改善を示す。
- 参考スコア(独自算出の注目度): 14.251949110756078
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating code-switched text is a problem of growing interest, especially
given the scarcity of corpora containing large volumes of real code-switched
text. In this work, we adapt a state-of-the-art neural machine translation
model to generate Hindi-English code-switched sentences starting from
monolingual Hindi sentences. We outline a carefully designed curriculum of
pretraining steps, including the use of synthetic code-switched text, that
enable the model to generate high-quality code-switched text. Using text
generated from our model as data augmentation, we show significant reductions
in perplexity on a language modeling task, compared to using text from other
generative models of CS text. We also show improvements using our text for a
downstream code-switched natural language inference task. Our generated text is
further subjected to a rigorous evaluation using a human evaluation study and a
range of objective metrics, where we show performance comparable (and sometimes
even superior) to code-switched text obtained via crowd workers who are native
Hindi speakers.
- Abstract(参考訳): コード切替テキストの生成は、特に大量の実際のコード切替テキストを含むコーパスの不足を考えると、関心が高まっている問題である。
本研究では,モノリンガルなヒンディー語文から始まるヒンディー語文を生成するために,最先端のニューラルマシン翻訳モデルを適用する。
我々は,高品質なコード切替テキストを生成するための,合成コード切替テキストの使用を含む,事前学習手順を慎重に設計したカリキュラムを概説する。
データ拡張として我々のモデルから生成されたテキストを用いて、CSテキストの他の生成モデルからのテキストと比較して、言語モデリングタスクにおけるパープレキシティの大幅な低下を示す。
また、下流のコード切り換え自然言語推論タスクにテキストを使用する場合の改善も示しています。
生成したテキストは、人間の評価研究と様々な客観的指標を用いて厳密な評価を受け、ヒンディー語話者である群衆労働者によって得られたコード変更テキストに匹敵する性能(時として優れている)を示す。
関連論文リスト
- CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text [59.57676466961787]
本稿では,手話における情報密度に基づいて符号化長を調整できる新しい動的ベクトル量子化(DVA-VAE)モデルを提案する。
PHOENIX14Tデータセットを用いて実験を行い,提案手法の有効性を示した。
我々は,486時間の手話ビデオ,音声,文字起こしテキストを含むドイツ語手話データセットPHOENIX-Newsを提案する。
論文 参考訳(メタデータ) (2024-06-11T10:06:53Z) - Code-Mixed Probes Show How Pre-Trained Models Generalise On Code-Switched Text [1.9185059111021852]
事前学習された言語モデルが3次元のコードスイッチトテキストをどのように扱うかを検討する。
その結果,事前学習した言語モデルは,コードスイッチトテキストへの一般化に有効であることが判明した。
論文 参考訳(メタデータ) (2024-03-07T19:46:03Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - Improving Code-switching Language Modeling with Artificially Generated
Texts using Cycle-consistent Adversarial Networks [41.88097793717185]
コードスイッチング学習用テキストデータを人工的に生成する手法について検討する。
本稿では,単言語テキストをコードスイッチングテキストに転送するための,サイクル一貫性のある敵対的ネットワークベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-12T21:27:32Z) - HinGE: A Dataset for Generation and Evaluation of Code-Mixed Hinglish
Text [1.6675267471157407]
我々は、広く普及しているHinglish(ヒンディー語と英語のコードミキシング)のためのコーパス(HinGE)を提示する。
HinGEには、人間が生成するヒングリッシュ文と、平行なヒンディー語文に対応する2つのルールベースのアルゴリズムがある。
さらに,コード混合データ上で広く利用されている評価指標の有効性を実証した。
論文 参考訳(メタデータ) (2021-07-08T11:11:37Z) - Sentiment Analysis of Persian-English Code-mixed Texts [0.0]
ソーシャルメディアデータの構造化されていない性質から,多言語テキストやコード混合テキストの例が増えている。
本研究では,ペルシャ語と英語の混成ツイートのデータセットを収集,ラベル付けし,作成する。
本稿では,BERTプレトレーニング済み埋め込みと翻訳モデルを用いて,これらのツイートの極性スコアを自動的に学習するモデルを提案する。
論文 参考訳(メタデータ) (2021-02-25T06:05:59Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - Adversarial Watermarking Transformer: Towards Tracing Text Provenance
with Data Hiding [80.3811072650087]
自然言語の透かしを防御として研究し,テキストの出所の発見と追跡に役立てる。
本稿では,適応型透かし変換器(AWT)とエンコーダ・デコーダ・デコーダを併用した対向型透かし変換器(AWT)について述べる。
AWTは、テキストにデータを隠蔽する最初のエンドツーエンドモデルである。
論文 参考訳(メタデータ) (2020-09-07T11:01:24Z) - Text Data Augmentation: Towards better detection of spear-phishing
emails [1.6556358263455926]
社内の英語テキストを増強するためのコーパスとタスク拡張フレームワークを提案する。
提案手法は,BERT言語モデル,多段階のバックトランスレーション,アグノシクスなど,様々な手法を組み合わせる。
本研究では,公開モデルとコーパスを用いて,テキスト分類タスクの性能向上を図っている。
論文 参考訳(メタデータ) (2020-07-04T07:45:04Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。