Fugu-MT 論文翻訳(概要): PESTO: Switching Point based Dynamic and Relative Positional Encoding for Code-Mixed Languages

論文の概要: PESTO: Switching Point based Dynamic and Relative Positional Encoding for Code-Mixed Languages

arxiv url: http://arxiv.org/abs/2111.06599v1
Date: Fri, 12 Nov 2021 08:18:21 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-15 21:03:35.461964
Title: PESTO: Switching Point based Dynamic and Relative Positional Encoding for Code-Mixed Languages
Title（参考訳）: PESTO: 符号混合言語における動的および相対的位置符号化
Authors: Mohsin Ali, Kandukuri Sai Teja, Sumanth Manduru, Parth Patwa, Amitava Das
Abstract要約: CM言語に対する切替点に基づく位置符号化技術の適用に関する最初の観察結果を示す。結果はSOTAよりわずかに優れているが、位置符号化はCMテキストに対する位置感受性言語モデルの訓練に有効な方法であることが明らかである。
参考スコア（独自算出の注目度）: 1.7073542935233876
License: http://creativecommons.org/licenses/by/4.0/
Abstract: NLP applications for code-mixed (CM) or mix-lingual text have gained a significant momentum recently, the main reason being the prevalence of language mixing in social media communications in multi-lingual societies like India, Mexico, Europe, parts of USA etc. Word embeddings are basic build-ing blocks of any NLP system today, yet, word embedding for CM languages is an unexplored territory. The major bottleneck for CM word embeddings is switching points, where the language switches. These locations lack in contextually and statistical systems fail to model this phenomena due to high variance in the seen examples. In this paper we present our initial observations on applying switching point based positional encoding techniques for CM language, specifically Hinglish (Hindi - English). Results are only marginally better than SOTA, but it is evident that positional encoding could bean effective way to train position sensitive language models for CM text.
Abstract（参考訳）: コード混合(cm)やミックスリンガルテキストのためのnlpアプリケーションは、インド、メキシコ、ヨーロッパ、米国の一部など多言語社会におけるソーシャルメディアコミュニケーションにおける言語混合の普及が主な理由として、近年大きな勢いを増している。現在、単語埋め込みはNLPシステムの基本構築ブロックであるが、CM言語の単語埋め込みは探索されていない領域である。 cmワード埋め込みの最大のボトルネックは、言語が切り替わるスイッチングポイントである。これらの場所は文脈的に欠落しており、統計システムではこの現象をモデル化できない。本稿では,cm言語,特にhinglish (hindi - english) に対して,スイッチングポイントに基づく位置符号化手法を適用した最初の観察を行う。結果はSOTAよりわずかに優れているが、位置符号化はCMテキストに対する位置感受性言語モデルの訓練に有効な方法であることは間違いない。

関連論文リスト

Indic-TunedLens: Interpreting Multilingual Models in Indian Languages [29.672158761831472]
インド語のための新しい解釈可能性フレームワークIndic-TunedLensを紹介する。標準のLogit Lensとは異なり、Indic-TunedLensはターゲット言語ごとに隠れた状態を調整している。 MMLUベンチマークを用いて10のインド言語上でのフレームワークの評価を行い,SOTAの解釈可能性よりも大幅に向上することを確認した。
論文参考訳（メタデータ） (2026-01-29T15:08:40Z)
Code-Mix Sentiment Analysis on Hinglish Tweets [1.0998375857698497]
インドにおけるブランド監視は、ヒングリッシュの台頭によってますます困難になっている。従来の自然言語処理モデルは、このコード混在言語の構文的および意味論的複雑さを解釈するのに失敗することが多い。本稿では,Hinglish つぶやきに特化して設計された,高性能な感情分類フレームワークを提案する。
論文参考訳（メタデータ） (2026-01-08T16:39:26Z)
Lost in the Mix: Evaluating LLM Understanding of Code-Switched Text [25.05270733872823]
コードスイッチング(英: Code-switching、CSW)とは、1つの言説の中で2つ以上の言語を交互に行う行為である。大規模言語モデル(LLM)は現在、コンテンツと通信生成の中心となっている。
論文参考訳（メタデータ） (2025-06-16T21:19:27Z)
Investigating and Scaling up Code-Switching for Multilingual Language Model Pre-Training [58.696660064190475]
コンテクスト内の異なる言語間を交互に交換するコードスイッチの存在が、多言語機能の鍵であることに気付きました。事前学習における言語アライメントのためのコードスイッチングのパワーをよりよく探求するために,合成コードスイッチングの戦略について検討する。
論文参考訳（メタデータ） (2025-04-02T15:09:58Z)
Prompt Engineering Using GPT for Word-Level Code-Mixed Language Identification in Low-Resource Dravidian Languages [0.0]
インドのような多言語社会では、テキストはしばしばコードミキシングを示し、異なる言語レベルで現地の言語と英語をブレンドする。本稿では,Dravidian言語における単語レベルのLI課題への対処を目的とした,共有タスクのプロンプトベース手法を提案する。本研究では,GPT-3.5 Turboを用いて,大言語モデルが単語を正しいカテゴリに分類できるかどうかを検証した。
論文参考訳（メタデータ） (2024-11-06T16:20:37Z)
CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。 COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文参考訳（メタデータ） (2024-06-16T16:10:51Z)
Exploring Multi-Lingual Bias of Large Code Models in Code Generation [55.336629780101475]
コード生成は、自然言語(NL)仕様に基づいて、コードを合成し、機能要件を満たすことを目的としている。有効性にもかかわらず、我々は大規模コードモデル(LCM)の生成性能において顕著な多言語バイアスを観察する。 LCMは、英語で指示を与えると解を生成する能力を示すが、中国語などの他のNLで意味論的に等価な命令に直面すると、失敗する可能性がある。
論文参考訳（メタデータ） (2024-04-30T08:51:49Z)
MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling [70.34758460372629]
多様な言語にまたがる一貫した大きさのセグメントで同一情報をエンコードする新しいパラダイムを導入する。 MYTEは99の言語すべてに対して短いエンコーディングを生成する。これにより、多言語LMの性能が向上し、多言語間でのパープレキシティギャップが減少する。
論文参考訳（メタデータ） (2024-03-15T21:21:11Z)
Developing a Multilingual Dataset and Evaluation Metrics for Code-Switching: A Focus on Hong Kong's Polylingual Dynamics [0.5700195008916903]
我々は,Multi-Agent Data Generation Framework (MADGF) を用いた混合カントンと英語(MCE)音声の34.8時間データセットを開発した。我々は,オープンソースの多言語自動音声認識(ASR)モデルであるWhisperをMCEデータセットで微調整し,印象的なゼロショット性能を実現した。
論文参考訳（メタデータ） (2023-10-27T08:01:55Z)
CONFLATOR: Incorporating Switching Point based Rotatory Positional Encodings for Code-Mixed Language Modeling [10.26356931263957]
コード混合言語のためのニューラル言語モデリングアプローチであるCONFLATORを紹介する。回転位置エンコーディングと切替点情報とが最適な結果をもたらすことを示す。 ConFLATORは、コードミキシングされたヒンディー語と英語に基づく2つのタスクで最先端のパフォーマンスを達成している。
論文参考訳（メタデータ） (2023-09-11T07:02:13Z)
Language Agnostic Code-Mixing Data Augmentation by Predicting Linguistic Patterns [0.5560631344057825]
本稿では,下流感情分析タスクにおけるベースラインよりも優れたSCMデータ拡張手法を提案する。提案手法は,マトリックス言語における文の一部を一定のマスクで戦略的に置き換えることで,分類精度が著しく向上することを示す。我々は低リソースと多言語の設定でデータ拡張手法をテストし、非常に少ない英・マラヤラムデータセットで7.73%の相対的な改善を実現した。
論文参考訳（メタデータ） (2022-11-14T18:50:16Z)
A New Generation of Perspective API: Efficient Multilingual Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文参考訳（メタデータ） (2022-02-22T20:55:31Z)
Multilingual Autoregressive Entity Linking [49.35994386221958]
mGENREはMultilingual Entity Linking問題のためのシーケンス対シーケンスシステムである。与えられた言語で言及すると、mGENREはターゲットエンティティの名前を左から右へ、トークンごとに予測します。提案手法の有効性を3つのMELベンチマーク実験を含む広範囲な評価により示す。
論文参考訳（メタデータ） (2021-03-23T13:25:55Z)
Evaluating Input Representation for Language Identification in Hindi-English Code Mixed Text [4.4904382374090765]
コードミックステキストは複数の言語で書かれたテキストからなる。人は自然に現地の言語と英語のようなグローバルな言語を組み合わせる傾向がある。本研究では,ヒンディー語と英語の混成テキストのコード混成文における言語識別に着目した。
論文参考訳（メタデータ） (2020-11-23T08:08:09Z)
Learning Contextualised Cross-lingual Word Embeddings and Alignments for Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文参考訳（メタデータ） (2020-10-27T22:24:01Z)
Word Level Language Identification in English Telugu Code Mixed Data [7.538482310185133]
現在、ICS(Intrasentential Code Switching)やCM(Code Mixing)が頻繁に見られる。本稿では,Nav Bayes, Random Forest, Conditional Random Field (CRF), Hidden Markov Model (HMM) の3つのモデルについて述べる。ベストパフォーマンスシステムは、f1スコア0.91のCRFベースです。
論文参考訳（メタデータ） (2020-10-09T10:15:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。