論文の概要: CALCS 2021 Shared Task: Machine Translation for Code-Switched Data
- arxiv url: http://arxiv.org/abs/2202.09625v1
- Date: Sat, 19 Feb 2022 15:39:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-26 11:47:50.497984
- Title: CALCS 2021 Shared Task: Machine Translation for Code-Switched Data
- Title(参考訳): CALCS 2021共有タスク: コード切替データの機械翻訳
- Authors: Shuguang Chen, Gustavo Aguilar, Anirudh Srinivasan, Mona Diab and
Thamar Solorio
- Abstract要約: 我々は、コード変更によるソーシャルメディアデータの機械翻訳に対処する。
コミュニティ共有タスクを作成します。
監督された設定では、参加者は英語をヒンディー語(英:Hindi- English)に単一方向に翻訳する。
教師なしの設定については、英語とスペイン語(Eng-Spanglish)、英語と現代標準アラビア語(Eng-MSAEA)の2つの言語対を提供する。
- 参考スコア(独自算出の注目度): 27.28423961505655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To date, efforts in the code-switching literature have focused for the most
part on language identification, POS, NER, and syntactic parsing. In this
paper, we address machine translation for code-switched social media data. We
create a community shared task. We provide two modalities for participation:
supervised and unsupervised. For the supervised setting, participants are
challenged to translate English into Hindi-English (Eng-Hinglish) in a single
direction. For the unsupervised setting, we provide the following language
pairs: English and Spanish-English (Eng-Spanglish), and English and Modern
Standard Arabic-Egyptian Arabic (Eng-MSAEA) in both directions. We share
insights and challenges in curating the "into" code-switching language
evaluation data. Further, we provide baselines for all language pairs in the
shared task. The leaderboard for the shared task comprises 12 individual system
submissions corresponding to 5 different teams. The best performance achieved
is 12.67% BLEU score for English to Hinglish and 25.72% BLEU score for MSAEA to
English.
- Abstract(参考訳): これまで、コードスイッチング文学における取り組みは、言語識別、POS、NER、構文解析に重点を置いてきた。
本稿では,コード切り替わったソーシャルメディアデータの機械翻訳について述べる。
コミュニティ共有タスクを作成します。
参加には2つのモダリティを提供しています。
監督された設定では、参加者は英語をヒンディー語(英:Hindi- English)に単一方向に翻訳する。
教師なしの設定については、英語とスペイン語(Eng-Spanglish)、英語と現代標準アラビア語(Eng-MSAEA)の2つの言語対を提供する。
コード交換言語の評価データをキュレートする上での洞察と課題を共有します。
さらに、共有タスク内のすべての言語ペアのベースラインも提供します。
共有タスクのリーダーボードは、5つの異なるチームに対応する12の個別のシステム投稿で構成される。
最高成績は英語の12.67%のBLEUスコアと英語の25.72%のBLEUスコアである。
関連論文リスト
- CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Transformer-based Model for Word Level Language Identification in
Code-mixed Kannada-English Texts [55.41644538483948]
コードミキシングしたカンナダ英語テキストにおける単語レベル言語識別のためのトランスフォーマーベースモデルを提案する。
The proposed model on the CoLI-Kenglish dataset achieves a weighted F1-score of 0.84 and a macro F1-score of 0.61。
論文 参考訳(メタデータ) (2022-11-26T02:39:19Z) - Gui at MixMT 2022 : English-Hinglish: An MT approach for translation of
code mixed data [13.187116325089951]
私たちは英語+ヒンディー語、ヒングリッシュ語、ヒングリッシュ語の両方で同じことを試みています。
我々の知る限り、私たちはモノリンガルからコードミクシング機械翻訳の最初のタスクにおいて、ROUGE-LとWERの上位スコアの1つを達成しました。
論文 参考訳(メタデータ) (2022-10-21T19:48:18Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - Handshakes AI Research at CASE 2021 Task 1: Exploring different
approaches for multilingual tasks [0.22940141855172036]
ケース2021共有タスク1の目的は,多言語環境下での社会・政治・危機事象情報の検出と分類である。
提案書にはすべてのサブタスクのエントリが含まれており,得られたスコアが調査結果の妥当性を検証した。
論文 参考訳(メタデータ) (2021-10-29T07:58:49Z) - WLV-RIT at HASOC-Dravidian-CodeMix-FIRE2020: Offensive Language
Identification in Code-switched YouTube Comments [16.938836887702923]
本稿では,インド・ヨーロッパ語におけるHate Speech and Offensive Content IdentificationのWLV-RITエントリについて述べる。
HASOC 2020の主催者は、ドラヴィダ語(マラヤラム語とタミル語)で混在するコードのソーシャルメディア投稿を含むデータセットを参加者に提供した。
テストセットの平均F1スコアは89.89で,12名中5位にランクインした。
論文 参考訳(メタデータ) (2020-11-01T16:52:08Z) - BRUMS at SemEval-2020 Task 12 : Transformer based Multilingual Offensive
Language Identification in Social Media [9.710464466895521]
ソーシャルメディアにおける攻撃的言語を特定するための多言語深層学習モデルを提案する。
このアプローチは、言語間の柔軟性を維持しながら、許容できる評価スコアを達成する。
論文 参考訳(メタデータ) (2020-10-13T10:39:14Z) - SJTU-NICT's Supervised and Unsupervised Neural Machine Translation
Systems for the WMT20 News Translation Task [111.91077204077817]
我々は英語・中国語・英語・ポーランド語・ドイツ語・アッパー・ソルビアンという3つの言語対の4つの翻訳指導に参加した。
言語ペアの異なる条件に基づいて、我々は多様なニューラルネットワーク翻訳(NMT)技術の実験を行った。
私たちの提出書では、主要なシステムは英語、中国語、ポーランド語、英語、ドイツ語から上セルビア語への翻訳の道順で第一位を獲得しました。
論文 参考訳(メタデータ) (2020-10-11T00:40:05Z) - ANDES at SemEval-2020 Task 12: A jointly-trained BERT multilingual model
for offensive language detection [0.6445605125467572]
我々は,提案言語にまたがる課題に対処するために,多言語BERTを微調整した単一モデルを共同で訓練した。
私たちの単一モデルは、最高のパフォーマンスシステムに近いパフォーマンスで、競争力のある結果を得ました。
論文 参考訳(メタデータ) (2020-08-13T16:07:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。