論文の概要: Style Variation as a Vantage Point for Code-Switching
- arxiv url: http://arxiv.org/abs/2005.00458v1
- Date: Fri, 1 May 2020 15:53:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 23:45:29.514039
- Title: Style Variation as a Vantage Point for Code-Switching
- Title(参考訳): コード切り換えの先駆点としてのスタイル変化
- Authors: Khyathi Raghavi Chandu, Alan W Black
- Abstract要約: Code-Switching (CS) は、複数のバイリンガルコミュニティや多言語コミュニティでよく見られる現象である。
両言語間のスタイルのバリエーションとして,CSの新たな特徴点を提示する。
本稿では,第1段階がCSの競合負例を生成し,第2段階がより現実的なCS文を生成する2段階生成逆トレーニング手法を提案する。
- 参考スコア(独自算出の注目度): 54.34370423151014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code-Switching (CS) is a common phenomenon observed in several bilingual and
multilingual communities, thereby attaining prevalence in digital and social
media platforms. This increasing prominence demands the need to model CS
languages for critical downstream tasks. A major problem in this domain is the
dearth of annotated data and a substantial corpora to train large scale neural
models. Generating vast amounts of quality text assists several down stream
tasks that heavily rely on language modeling such as speech recognition,
text-to-speech synthesis etc,. We present a novel vantage point of CS to be
style variations between both the participating languages. Our approach does
not need any external annotations such as lexical language ids. It mainly
relies on easily obtainable monolingual corpora without any parallel alignment
and a limited set of naturally CS sentences. We propose a two-stage generative
adversarial training approach where the first stage generates competitive
negative examples for CS and the second stage generates more realistic CS
sentences. We present our experiments on the following pairs of languages:
Spanish-English, Mandarin-English, Hindi-English and Arabic-French. We show
that the trends in metrics for generated CS move closer to real CS data in each
of the above language pairs through the dual stage training process. We believe
this viewpoint of CS as style variations opens new perspectives for modeling
various tasks in CS text.
- Abstract(参考訳): コードスイッチング(cs)は、複数のバイリンガルおよび多言語コミュニティで見られる一般的な現象であり、デジタルおよびソーシャルメディアプラットフォームで普及する。
この増加傾向は、重要な下流タスクのためにCS言語をモデル化する必要がある。
この領域で大きな問題は、注釈付きデータと大規模ニューラルネットワークモデルをトレーニングするためのかなりのコーパスの欠如である。
大量の品質テキストを生成することは、音声認識や音声合成など、言語モデリングに大きく依存するいくつかのダウンストリームタスクを支援する。
両言語間のスタイルのバリエーションとして,CSの新たな特徴点を提案する。
私たちのアプローチでは、語彙言語IDのような外部アノテーションは不要です。
パラレルアライメントやCS文の制限のない、容易に入手可能な単言語コーパスに依存している。
本稿では,第1段階がCSの競合負例を生成し,第2段階がより現実的なCS文を生成する2段階生成逆トレーニング手法を提案する。
我々はスペイン語、マンダリン英語、ヒンディー語、アラビア語の2つの言語について実験を行った。
生成したCSのメトリクスの傾向は、上記の各言語ペアの実際のCSデータに近づき、デュアルステージのトレーニングプロセスを通してその傾向を示す。
スタイルのバリエーションとしてのCSのこの視点は、CSテキストで様々なタスクをモデル化するための新しい視点を開きます。
関連論文リスト
- ConCSE: Unified Contrastive Learning and Augmentation for Code-Switched Embeddings [4.68732641979009]
本稿では、2つの言語が1つの発話の中で交わるコードスイッチング(CS)現象について検討する。
我々は、他の言語におけるCSの現在の等価制約(EC)理論は、部分的にしか英語と韓国のCSの複雑さを捉えていないことを強調した。
我々は,このような課題を緩和するために,英語と韓国のCSシナリオに適した新しいKoglishデータセットを提案する。
論文 参考訳(メタデータ) (2024-08-28T11:27:21Z) - Bridge to Non-Barrier Communication: Gloss-Prompted Fine-grained Cued Speech Gesture Generation with Diffusion Model [11.160802635050866]
Cued Speech (CS) は、唇読みと手書きコードを統合する高度な視覚音声符号化システムである。
既存のCS生成手法は脆弱であり、テンプレートベースの統計モデルにより性能が低下する傾向にある。
我々はGross-prompted Diffusion-based CS Gesture Generation framework(GrossDiff)を提案する。
論文 参考訳(メタデータ) (2024-04-30T05:54:40Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - The Who in Code-Switching: A Case Study for Predicting Egyptian
Arabic-English Code-Switching Levels based on Character Profiles [20.746558640332953]
コードスイッチング(英: Code-switching, CS)とは、多言語個人が1つの会話の中で言語を交互に交互に交互に行う言語現象である。
機械学習(ML)を使用して、ユーザのプロファイルに基づいて、ユーザのCSレベルを予測する。
その結果, CS行動は, 話者, 旅行経験, ニューロティシズム, 外転性性格特性の関連性が示唆された。
論文 参考訳(メタデータ) (2022-07-31T13:47:35Z) - End-to-End Speech Translation for Code Switched Speech [13.97982457879585]
コードスイッチング(英: Code switch, CS)とは、異なる言語の単語やフレーズを相互に使用する現象である。
我々は,音声翻訳作業(ST)における英語とスペイン語の会話の文脈において,CSに着目し,書き起こしと翻訳の両方を生成・評価する。
我々のSTアーキテクチャ、特に双方向のエンドツーエンドアーキテクチャは、CS訓練データを使用しなくても、CS音声でよく機能することを示す。
論文 参考訳(メタデータ) (2022-04-11T13:25:30Z) - Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文 参考訳(メタデータ) (2021-09-28T04:43:11Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - KARI: KAnari/QCRI's End-to-End systems for the INTERSPEECH 2021 Indian
Languages Code-Switching Challenge [7.711092265101041]
本稿では,低リソースのインド言語に対するICS(Interspeech 2021 Code-switching)チャレンジに参加するために使用される,Kanari/QCRIシステムとモデリング戦略について述べる。
このサブタスクには、ヒンディー語とベンガル語という2つのCSデータセットのための音声認識システムの開発が含まれていた。
CSの課題に対処するために、公開のモノリンガルヒンディー語、ベンガル語、英語の音声データを取り入れるためにトランスファーラーニングを利用する。
論文 参考訳(メタデータ) (2021-06-10T16:12:51Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。