論文の概要: PESTO: Switching Point based Dynamic and Relative Positional Encoding
for Code-Mixed Languages
- arxiv url: http://arxiv.org/abs/2111.06599v1
- Date: Fri, 12 Nov 2021 08:18:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-15 21:03:35.461964
- Title: PESTO: Switching Point based Dynamic and Relative Positional Encoding
for Code-Mixed Languages
- Title(参考訳): PESTO: 符号混合言語における動的および相対的位置符号化
- Authors: Mohsin Ali, Kandukuri Sai Teja, Sumanth Manduru, Parth Patwa, Amitava
Das
- Abstract要約: CM言語に対する切替点に基づく位置符号化技術の適用に関する最初の観察結果を示す。
結果はSOTAよりわずかに優れているが、位置符号化はCMテキストに対する位置感受性言語モデルの訓練に有効な方法であることが明らかである。
- 参考スコア(独自算出の注目度): 1.7073542935233876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: NLP applications for code-mixed (CM) or mix-lingual text have gained a
significant momentum recently, the main reason being the prevalence of language
mixing in social media communications in multi-lingual societies like India,
Mexico, Europe, parts of USA etc. Word embeddings are basic build-ing blocks of
any NLP system today, yet, word embedding for CM languages is an unexplored
territory. The major bottleneck for CM word embeddings is switching points,
where the language switches. These locations lack in contextually and
statistical systems fail to model this phenomena due to high variance in the
seen examples. In this paper we present our initial observations on applying
switching point based positional encoding techniques for CM language,
specifically Hinglish (Hindi - English). Results are only marginally better
than SOTA, but it is evident that positional encoding could bean effective way
to train position sensitive language models for CM text.
- Abstract(参考訳): コード混合(cm)やミックスリンガルテキストのためのnlpアプリケーションは、インド、メキシコ、ヨーロッパ、米国の一部など多言語社会におけるソーシャルメディアコミュニケーションにおける言語混合の普及が主な理由として、近年大きな勢いを増している。
現在、単語埋め込みはNLPシステムの基本構築ブロックであるが、CM言語の単語埋め込みは探索されていない領域である。
cmワード埋め込みの最大のボトルネックは、言語が切り替わるスイッチングポイントである。
これらの場所は文脈的に欠落しており、統計システムではこの現象をモデル化できない。
本稿では,cm言語,特にhinglish (hindi - english) に対して,スイッチングポイントに基づく位置符号化手法を適用した最初の観察を行う。
結果はSOTAよりわずかに優れているが、位置符号化はCMテキストに対する位置感受性言語モデルの訓練に有効な方法であることは間違いない。
関連論文リスト
- Prompt Engineering Using GPT for Word-Level Code-Mixed Language Identification in Low-Resource Dravidian Languages [0.0]
インドのような多言語社会では、テキストはしばしばコードミキシングを示し、異なる言語レベルで現地の言語と英語をブレンドする。
本稿では,Dravidian言語における単語レベルのLI課題への対処を目的とした,共有タスクのプロンプトベース手法を提案する。
本研究では,GPT-3.5 Turboを用いて,大言語モデルが単語を正しいカテゴリに分類できるかどうかを検証した。
論文 参考訳(メタデータ) (2024-11-06T16:20:37Z) - CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - Exploring Multi-Lingual Bias of Large Code Models in Code Generation [55.336629780101475]
コード生成は、自然言語(NL)仕様に基づいて、コードを合成し、機能要件を満たすことを目的としている。
有効性にもかかわらず、我々は大規模コードモデル(LCM)の生成性能において顕著な多言語バイアスを観察する。
LCMは、英語で指示を与えると解を生成する能力を示すが、中国語などの他のNLで意味論的に等価な命令に直面すると、失敗する可能性がある。
論文 参考訳(メタデータ) (2024-04-30T08:51:49Z) - MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling [70.34758460372629]
多様な言語にまたがる一貫した大きさのセグメントで同一情報をエンコードする新しいパラダイムを導入する。
MYTEは99の言語すべてに対して短いエンコーディングを生成する。
これにより、多言語LMの性能が向上し、多言語間でのパープレキシティギャップが減少する。
論文 参考訳(メタデータ) (2024-03-15T21:21:11Z) - CONFLATOR: Incorporating Switching Point based Rotatory Positional
Encodings for Code-Mixed Language Modeling [10.26356931263957]
コード混合言語のためのニューラル言語モデリングアプローチであるCONFLATORを紹介する。
回転位置エンコーディングと切替点情報とが最適な結果をもたらすことを示す。
ConFLATORは、コードミキシングされたヒンディー語と英語に基づく2つのタスクで最先端のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-09-11T07:02:13Z) - Language Agnostic Code-Mixing Data Augmentation by Predicting Linguistic
Patterns [0.5560631344057825]
本稿では,下流感情分析タスクにおけるベースラインよりも優れたSCMデータ拡張手法を提案する。
提案手法は,マトリックス言語における文の一部を一定のマスクで戦略的に置き換えることで,分類精度が著しく向上することを示す。
我々は低リソースと多言語の設定でデータ拡張手法をテストし、非常に少ない英・マラヤラムデータセットで7.73%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2022-11-14T18:50:16Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Multilingual Autoregressive Entity Linking [49.35994386221958]
mGENREはMultilingual Entity Linking問題のためのシーケンス対シーケンスシステムである。
与えられた言語で言及すると、mGENREはターゲットエンティティの名前を左から右へ、トークンごとに予測します。
提案手法の有効性を3つのMELベンチマーク実験を含む広範囲な評価により示す。
論文 参考訳(メタデータ) (2021-03-23T13:25:55Z) - Evaluating Input Representation for Language Identification in
Hindi-English Code Mixed Text [4.4904382374090765]
コードミックステキストは複数の言語で書かれたテキストからなる。
人は自然に現地の言語と英語のようなグローバルな言語を組み合わせる傾向がある。
本研究では,ヒンディー語と英語の混成テキストのコード混成文における言語識別に着目した。
論文 参考訳(メタデータ) (2020-11-23T08:08:09Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Word Level Language Identification in English Telugu Code Mixed Data [7.538482310185133]
現在、ICS(Intrasentential Code Switching)やCM(Code Mixing)が頻繁に見られる。
本稿では,Nav Bayes, Random Forest, Conditional Random Field (CRF), Hidden Markov Model (HMM) の3つのモデルについて述べる。
ベストパフォーマンスシステムは、f1スコア0.91のCRFベースです。
論文 参考訳(メタデータ) (2020-10-09T10:15:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。