論文の概要: Contextual Code Switching for Machine Translation using Language Models
- arxiv url: http://arxiv.org/abs/2312.13179v1
- Date: Wed, 20 Dec 2023 16:40:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 14:54:12.722745
- Title: Contextual Code Switching for Machine Translation using Language Models
- Title(参考訳): 言語モデルを用いた機械翻訳における文脈コードスイッチング
- Authors: Arshad Kaji, Manan Shah
- Abstract要約: 大規模言語モデル(LLM)は近年,多種多様な言語関連タスクに多大な影響を与えている。
本稿では,複数のLLMを比較した機械翻訳タスクに特化して,コード切替タスクについて広範な研究を行う。
以上の結果から,LLMは特定のタスクに有望な結果をもたらすにもかかわらず,機械翻訳タスクにおける多言語大言語モデルよりも比較的少ない複雑性を持つモデルの方が優れていることが示唆された。
- 参考スコア(独自算出の注目度): 1.4866655830571935
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) have exerted a considerable impact on diverse
language-related tasks in recent years. Their demonstrated state-of-the-art
performance is achieved through methodologies such as zero-shot or few-shot
prompting. These models undergo training on extensive datasets that encompass
segments of the Internet and subsequently undergo fine-tuning tailored to
specific tasks. Notably, they exhibit proficiency in tasks such as translation,
summarization, question answering, and creative writing, even in the absence of
explicit training for those particular tasks. While they have shown substantial
improvement in the multilingual tasks their performance in the code switching,
especially for machine translation remains relatively uncharted. In this paper,
we present an extensive study on the code switching task specifically for the
machine translation task comparing multiple LLMs. Our results indicate that
despite the LLMs having promising results in the certain tasks, the models with
relatively lesser complexity outperform the multilingual large language models
in the machine translation task. We posit that the efficacy of multilingual
large language models in contextual code switching is constrained by their
training methodologies. In contrast, relatively smaller models, when trained
and fine-tuned on bespoke datasets, may yield superior results in comparison to
the majority of multilingual models.
- Abstract(参考訳): 大規模言語モデル(LLM)は近年,多様な言語関連タスクに多大な影響を与えている。
実証された最先端のパフォーマンスは、ゼロショットや少数ショットプロンプトのような方法論によって達成される。
これらのモデルは、インターネットのセグメントを含む広範なデータセットをトレーニングし、その後、特定のタスクに合わせて微調整を行う。
特に、翻訳、要約、質問応答、創造的な文章などのタスクにおいて、特定のタスクに対する明示的な訓練がなくても、習熟度を示す。
彼らは多言語タスクの大幅な改善を示したが、コードの切り替え、特に機械翻訳におけるパフォーマンスは、比較的未解決のままである。
本稿では,複数のLLMを比較した機械翻訳タスクに特化して,コード切替タスクについて広範な研究を行う。
その結果,llmは特定のタスクにおいて有望な結果をもたらすが,機械翻訳タスクでは,比較的少ない複雑性のモデルの方が多言語大言語モデルよりも優れていることがわかった。
コンテキストスイッチングにおける多言語大言語モデルの有効性は,そのトレーニング手法によって制約されると考えられる。
対照的に、比較的小さなモデルでは、ベスポークデータセットを訓練し、微調整すると、多言語モデルよりも優れた結果が得られる。
関連論文リスト
- Relay Decoding: Concatenating Large Language Models for Machine Translation [21.367605327742027]
我々はRD(Relay Decoding)と呼ばれる革新的なアプローチを提案し、ソースとターゲット言語を個別にサポートする2つの異なる大規模モデルを結合する。
これら2つのモデル間の接続を容易にするための単純なマッピング層を導入し、訓練に限られた並列データを活用することにより、機械翻訳タスクにおいて優れた結果が得られた。
論文 参考訳(メタデータ) (2024-05-05T13:42:25Z) - Multilingual Large Language Models Are Not (Yet) Code-Switchers [41.47534626749588]
大規模言語モデル(LLM)は、最近、幅広いタスクにおいて優れた機能を示している。
発話の中で言語を交互に行う習慣は、いまだにほとんど受け継がれていない。
LLMの現在の「多言語主義」は、本質的にはコードスイッチングテキストの習熟度を示唆していない、と我々は主張する。
論文 参考訳(メタデータ) (2023-05-23T16:50:48Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - Bootstrapping Multilingual Semantic Parsers using Large Language Models [28.257114724384806]
複数の言語にまたがって英語データセットを転送するTranslation-trainパラダイムは、タスク固有の多言語モデルをトレーニングする上で重要な要素である。
本稿では,多言語意味解析の課題を考察し,英語データセットを複数言語に翻訳する大規模言語モデル(LLM)の有効性と柔軟性を示す。
論文 参考訳(メタデータ) (2022-10-13T19:34:14Z) - Multi Task Learning For Zero Shot Performance Prediction of Multilingual
Models [12.759281077118567]
多言語トランスフォーマーに基づく言語モデルは、言語間のゼロショット転送において驚くほど効果的であることが観察されている。
我々は,タスク上のゼロショット性能をマルチタスク学習問題としてモデル化することにより,タスク上のゼロショット性能を予測するための既存の手法を構築した。
論文 参考訳(メタデータ) (2022-05-12T14:47:03Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - Breaking Down Multilingual Machine Translation [74.24795388967907]
マルチ言語学習は一般にエンコーダにとって有益であるが,ローソース言語(LRL)ではデコーダにのみ有益であることを示す。
LRLの多言語モデルと一対多モデルは、Aharoniらによって報告された最良の結果よりも優れています。
論文 参考訳(メタデータ) (2021-10-15T14:57:12Z) - Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。
この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文 参考訳(メタデータ) (2021-03-24T16:20:02Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot
Cross-Lingual NLP [68.2650714613869]
我々は,mBERTを微調整するための多言語コードスイッチングデータを生成するためのデータ拡張フレームワークを提案する。
既存の研究と比較すると,本手法は訓練にバイリンガル文を頼らず,複数の対象言語に対して1つの学習プロセスしか必要としない。
論文 参考訳(メタデータ) (2020-06-11T13:15:59Z) - GLUECoS : An Evaluation Benchmark for Code-Switched NLP [17.066725832825423]
コード切替言語に対する評価ベンチマーク GLUECoS を提案する。
英語・ヒンディー語・英語・スペイン語におけるNLP課題について報告する。
我々は、人工的に生成されたコード切替データに基づいて、多言語モデルを微調整する。
論文 参考訳(メタデータ) (2020-04-26T13:28:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。