論文の概要: CONFLATOR: Incorporating Switching Point based Rotatory Positional
Encodings for Code-Mixed Language Modeling
- arxiv url: http://arxiv.org/abs/2309.05270v2
- Date: Wed, 18 Oct 2023 23:48:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 19:07:07.181257
- Title: CONFLATOR: Incorporating Switching Point based Rotatory Positional
Encodings for Code-Mixed Language Modeling
- Title(参考訳): CONFLATOR: Code-Mixed Language Modelingのためのスイッチングポイントに基づく回転位置符号化
- Authors: Mohsin Ali, Kandukuri Sai Teja, Neeharika Gupta, Parth Patwa, Anubhab
Chatterjee, Vinija Jain, Aman Chadha, Amitava Das
- Abstract要約: コード混合言語のためのニューラル言語モデリングアプローチであるCONFLATORを紹介する。
回転位置エンコーディングと切替点情報とが最適な結果をもたらすことを示す。
ConFLATORは、コードミキシングされたヒンディー語と英語に基づく2つのタスクで最先端のパフォーマンスを達成している。
- 参考スコア(独自算出の注目度): 10.26356931263957
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The mixing of two or more languages is called Code-Mixing (CM). CM is a
social norm in multilingual societies. Neural Language Models (NLMs) like
transformers have been effective on many NLP tasks. However, NLM for CM is an
under-explored area. Though transformers are capable and powerful, they cannot
always encode positional information since they are non-recurrent. Therefore,
to enrich word information and incorporate positional information, positional
encoding is defined. We hypothesize that Switching Points (SPs), i.e.,
junctions in the text where the language switches (L1 -> L2 or L2 -> L1), pose
a challenge for CM Language Models (LMs), and hence give special emphasis to
SPs in the modeling process. We experiment with several positional encoding
mechanisms and show that rotatory positional encodings along with switching
point information yield the best results.
We introduce CONFLATOR: a neural language modeling approach for code-mixed
languages. CONFLATOR tries to learn to emphasize switching points using smarter
positional encoding, both at unigram and bigram levels. CONFLATOR outperforms
the state-of-the-art on two tasks based on code-mixed Hindi and English
(Hinglish): (i) sentiment analysis and (ii) machine translation.
- Abstract(参考訳): 2つ以上の言語の混合はcode-mixing (cm) と呼ばれる。
CMは多言語社会における社会規範である。
トランスフォーマーのようなニューラル言語モデル(NLM)は多くのNLPタスクに有効である。
しかし、NLM for CMは未探索領域である。
トランスは機能的で強力であるが、非リカレントであるため、常に位置情報をエンコードすることはできない。
したがって、単語情報を豊かにし、位置情報を組み込むため、位置符号化を定義する。
我々は,言語が切り替えるテキスト(L1 -> L2 -> L2 -> L1)の接続点(SP)がCM言語モデル(LM)に挑戦し,モデリングプロセスにおいてSPに特に重点を置いていることを仮定する。
いくつかの位置符号化機構を実験し、回転位置符号化と切替点情報とが最良の結果をもたらすことを示す。
コード混合言語のためのニューラル言語モデリングアプローチであるCONFLATORを紹介する。
CONFLATORは、ユニグラムレベルとビッグラムレベルの両方で、よりスマートな位置符号化を用いて、スイッチングポイントを強調することを学ぼうとしている。
CONFLATORは、コードミキシングされたヒンディー語と英語(ヒングリッシュ語)に基づく2つのタスクで最先端のタスクをパフォーマンスします。
(i)感情分析及び
(ii)機械翻訳。
関連論文リスト
- Exploring Multi-Lingual Bias of Large Code Models in Code Generation [55.336629780101475]
コード生成は、自然言語(NL)仕様に基づいて、コードを合成し、機能要件を満たすことを目的としている。
有効性にもかかわらず、我々は大規模コードモデル(LCM)の生成性能において顕著な多言語バイアスを観察する。
LCMは、英語で指示を与えると解を生成する能力を示すが、中国語などの他のNLで意味論的に等価な命令に直面すると、失敗する可能性がある。
論文 参考訳(メタデータ) (2024-04-30T08:51:49Z) - IRCoder: Intermediate Representations Make Language Models Robust Multilingual Code Generators [49.903001442804594]
本研究では、コンパイラ中間表現(IR)を活用して、Code-LMの多言語機能を改善する可能性について検討する。
まず,約400万のソースコードファイルからなる並列データセットであるSLTransをコンパイルする。
次に、SLTransにおける因果言語モデリングトレーニングを継続して実施し、Code-LMはIR言語を学習せざるを得なかった。
IRCoderと呼ばれる結果のモデルは、さまざまなコード生成タスクやメトリクスに対して、サイズと一貫性のあるゲインを表示します。
論文 参考訳(メタデータ) (2024-03-06T17:52:08Z) - Two Stones Hit One Bird: Bilevel Positional Encoding for Better Length Extrapolation [69.68831888599476]
そこで我々は,バイレベル位置符号化と呼ばれる新しい位置符号化法を開発した。
倫理的分析は、この位置情報の絡み合いが学習をより効果的にすることを示している。
私たちのBiPEは、多種多様なテキストモダリティにおいて、幅広いタスクにわたって、より優れた長さの補間機能を持っています。
論文 参考訳(メタデータ) (2024-01-29T18:59:07Z) - Converting Epics/Stories into Pseudocode using Transformers [0.0]
Pseudocodeは、コンピュータプログラムに関わるステップのプログラミング言語表現である。
本稿では,英語で記述された問題を擬似コードに変換する手法を提案する。
上記の2つのサブタスクで個別にトレーニングすると,CodeT5モデルはBLEUスコアで最高の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-12-08T14:01:09Z) - The Locality and Symmetry of Positional Encodings [9.246374019271938]
我々はtextbfBi Masked Language Models (BERT-style) における位置符号化の体系的研究を行う。
PEのコア関数は、局所性と対称性という2つの共通性質を同定することによって明らかにする。
2つの新しい探索タスクを導入し、現在のPEの弱点を定量化する。
論文 参考訳(メタデータ) (2023-10-19T16:15:15Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - PESTO: Switching Point based Dynamic and Relative Positional Encoding
for Code-Mixed Languages [1.7073542935233876]
CM言語に対する切替点に基づく位置符号化技術の適用に関する最初の観察結果を示す。
結果はSOTAよりわずかに優れているが、位置符号化はCMテキストに対する位置感受性言語モデルの訓練に有効な方法であることが明らかである。
論文 参考訳(メタデータ) (2021-11-12T08:18:21Z) - The Impact of Positional Encodings on Multilingual Compression [3.454503173118508]
元のトランスアーキテクチャで使われる正弦波の位置エンコーディングに対して、いくつかの修正が提案されている。
まず、これらの修正はモノリンガル言語モデルを改善する傾向にあるが、いずれの修正もより良いマルチリンガル言語モデルをもたらすものではないことを示す。
論文 参考訳(メタデータ) (2021-09-11T23:22:50Z) - DeltaLM: Encoder-Decoder Pre-training for Language Generation and
Translation by Augmenting Pretrained Multilingual Encoders [92.90543340071007]
本稿では,事前訓練された多言語エンコーダデコーダモデルDeltaLMを紹介する。
具体的には,事前学習した多言語エンコーダをデコーダで拡張し,自己指導型で事前学習する。
実験により、DeltaLMは自然言語生成と翻訳の両方のタスクにおいて、様々な強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2021-06-25T16:12:10Z) - Word Level Language Identification in English Telugu Code Mixed Data [7.538482310185133]
現在、ICS(Intrasentential Code Switching)やCM(Code Mixing)が頻繁に見られる。
本稿では,Nav Bayes, Random Forest, Conditional Random Field (CRF), Hidden Markov Model (HMM) の3つのモデルについて述べる。
ベストパフォーマンスシステムは、f1スコア0.91のCRFベースです。
論文 参考訳(メタデータ) (2020-10-09T10:15:06Z) - Bi-Decoder Augmented Network for Neural Machine Translation [108.3931242633331]
本稿では,ニューラルマシン翻訳タスクのためのBi-Decoder Augmented Network (BiDAN)を提案する。
各デコーダは入力されたテキストの表現を対応する言語に変換するため、2つの目的語と共同でトレーニングすることで、共有エンコーダは言語に依存しない意味空間を生成することができる。
論文 参考訳(メタデータ) (2020-01-14T02:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。