Fugu-MT 論文翻訳(概要): NUIG-Shubhanker@Dravidian-CodeMix-FIRE2020: Sentiment Analysis of Code-Mixed Dravidian text using XLNet

論文の概要: NUIG-Shubhanker@Dravidian-CodeMix-FIRE2020: Sentiment Analysis of Code-Mixed Dravidian text using XLNet

arxiv url: http://arxiv.org/abs/2010.07773v1
Date: Thu, 15 Oct 2020 14:09:02 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-07 02:42:46.722847
Title: NUIG-Shubhanker@Dravidian-CodeMix-FIRE2020: Sentiment Analysis of Code-Mixed Dravidian text using XLNet
Title（参考訳）: NUIG-Shubhanker@Dravidian-CodeMix-FIRE2020:XLNetを用いたコードミクシングドラヴィディアンテキストの知覚分析
Authors: Shubhanker Banerjee, Arun Jayapal and Sajeetha Thavareesan
Abstract要約: ソーシャルメディアは多言語社会に浸透してきたが、その多くは英語をコミュニケーションの言語として好んでいる。会話中に文化的な言語と英語を混ぜることで、多言語データが多くなり、今日の世界で利用できるこのコード混在データと呼ぶのは自然なことです。このようなデータを用いた下流NLPタスクは、複数の言語にまたがるセマンティックな性質のため、難しい。本稿では,自動回帰XLNetモデルを用いて,タミル・イングリッシュとマラヤラム・イングリッシュ・データセットの感情分析を行う。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Social media has penetrated into multilingual societies, however most of them use English to be a preferred language for communication. So it looks natural for them to mix their cultural language with English during conversations resulting in abundance of multilingual data, call this code-mixed data, available in todays' world.Downstream NLP tasks using such data is challenging due to the semantic nature of it being spread across multiple languages.One such Natural Language Processing task is sentiment analysis, for this we use an auto-regressive XLNet model to perform sentiment analysis on code-mixed Tamil-English and Malayalam-English datasets.
Abstract（参考訳）: ソーシャルメディアは多言語社会に浸透してきたが、そのほとんどは英語をコミュニケーションの優先言語として使っている。 So it looks natural for them to mix their cultural language with English during conversations resulting in abundance of multilingual data, call this code-mixed data, available in todays' world.Downstream NLP tasks using such data is challenging due to the semantic nature of it being spread across multiple languages.One such Natural Language Processing task is sentiment analysis, for this we use an auto-regressive XLNet model to perform sentiment analysis on code-mixed Tamil-English and Malayalam-English datasets.

関連論文リスト

Code-Mix Sentiment Analysis on Hinglish Tweets [1.0998375857698497]
インドにおけるブランド監視は、ヒングリッシュの台頭によってますます困難になっている。従来の自然言語処理モデルは、このコード混在言語の構文的および意味論的複雑さを解釈するのに失敗することが多い。本稿では,Hinglish つぶやきに特化して設計された,高性能な感情分類フレームワークを提案する。
論文参考訳（メタデータ） (2026-01-08T16:39:26Z)
CrossNews-UA: A Cross-lingual News Semantic Similarity Benchmark for Ukrainian, Polish, Russian, and English [53.32175252285023]
言語間のニュース比較は、情報の検証に有望なアプローチを提供する。既存の言語間ニュース分析用のデータセットは、ジャーナリストや専門家によって手作業でキュレートされた。我々は、多言語間ニュース類似性評価のためのスケーラブルで説明可能なクラウドソーシングパイプラインを導入する。
論文参考訳（メタデータ） (2025-10-22T14:23:50Z)
Creating and Evaluating Code-Mixed Nepali-English and Telugu-English Datasets for Abusive Language Detection Using Traditional and Deep Learning Models [1.835004446596942]
我々は,2千のテルグ語と5つのネパール語と英語のコードミキシングされたコメントからなる,手動で注釈付けされた新しいデータセットを紹介した。データセットは厳格な事前処理を経て、複数の機械学習(ML)、ディープラーニング(DL)、大規模言語モデル(LLM)で評価される。本研究は,コード混在環境における乱用言語検出の課題について,重要な知見を提供するものである。
論文参考訳（メタデータ） (2025-04-23T11:29:10Z)
COMI-LINGUA: Expert Annotated Large-Scale Dataset for Multitask NLP in Hindi-English Code-Mixing [1.3062731746155414]
COMI-lingUAは、DevanagariとRomanスクリプトの3つの専門家アノテータによって評価された100,970のインスタンスを含む、コードミックステキスト用の手動アノテートデータセットとしては最大である。このデータセットは5つの基本的なNLPタスクをサポートしている。言語識別、マトリックス言語識別、音声タギング、名前付きエンティティ認識、翻訳である。我々は、COMIINGUAを用いてこれらのタスク上でLLMを評価し、現在の多言語モデリング戦略の限界を明らかにし、コード混合テキスト処理機能の改善の必要性を強調した。
論文参考訳（メタデータ） (2025-03-27T16:36:39Z)
On Importance of Code-Mixed Embeddings for Hate Speech Identification [0.4194295877935868]
我々は,コード混合埋め込みの重要性を分析し,ヘイトスピーチ検出におけるBERTモデルとHingBERTモデルの性能を評価する。本研究は,HingBERTモデルがヘイトスピーチテキストデータセットでテストした場合に,HingBERTモデルよりも優れたHindi- EnglishデータセットL3-HingCorpusのトレーニングの恩恵を受けることを示す。
論文参考訳（メタデータ） (2024-11-27T18:23:57Z)
CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。 COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文参考訳（メタデータ） (2024-06-16T16:10:51Z)
Multilingual Diversity Improves Vision-Language Representations [66.41030381363244]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。 GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文参考訳（メタデータ） (2024-05-27T08:08:51Z)
Offensive Language Identification in Transliterated and Code-Mixed Bangla [29.30985521838655]
本稿では,翻訳とコードミキシングによるテキスト中の攻撃的言語識別について検討する。 TB-OLID(TB-OLID)は,5000のコメントを手動で書き起こした,バングラの攻撃的言語データセットである。我々はTB-OLIDで機械学習モデルを訓練し、微調整を行い、このデータセットで結果を評価する。
論文参考訳（メタデータ） (2023-11-25T13:27:22Z)
Prompting Multilingual Large Language Models to Generate Code-Mixed Texts: The Case of South East Asian Languages [47.78634360870564]
東南アジア7言語(SEA)のコードミキシングデータ生成のための多言語モデルの構築について検討する。 BLOOMZのような多言語学習モデルでは、異なる言語からフレーズや節でテキストを生成できないことが判明した。 ChatGPTは、コード混合テキストの生成において矛盾する機能を示しており、そのパフォーマンスはプロンプトテンプレートと言語ペアリングによって異なる。
論文参考訳（メタデータ） (2023-03-23T18:16:30Z)
Transformer-based Model for Word Level Language Identification in Code-mixed Kannada-English Texts [55.41644538483948]
コードミキシングしたカンナダ英語テキストにおける単語レベル言語識別のためのトランスフォーマーベースモデルを提案する。 The proposed model on the CoLI-Kenglish dataset achieves a weighted F1-score of 0.84 and a macro F1-score of 0.61。
論文参考訳（メタデータ） (2022-11-26T02:39:19Z)
MCoNaLa: A Benchmark for Code Generation from Multiple Natural Languages [76.93265104421559]
英語以外の自然言語コマンドからコード生成をベンチマークします。スペイン語,日本語,ロシア語の3言語で896個のNLコードペアを注釈した。難易度はこれらの3つの言語によって異なるが、全てのシステムは英語にかなり遅れている。
論文参考訳（メタデータ） (2022-03-16T04:21:50Z)
IIITT@Dravidian-CodeMix-FIRE2021: Transliterate or translate? Sentiment analysis of code-mixed text in Dravidian languages [0.0]
本研究は,カナダ語,タミル語,マラヤラム語において,コードミキシングによるソーシャルメディアコメントの感情分析という形で,この研究に小さな貢献をしている。 FIRE 2021でDravidian-CodeMix氏が行った共有タスクの作業について説明している。結果は,タミル,カナダ,マラヤラムの各タスクにおいて,最良モデルが4位,第5位,第10位であった研究論文に記録されている。
論文参考訳（メタデータ） (2021-11-15T16:57:59Z)
Offensive Language Identification in Low-resourced Code-mixed Dravidian languages using Pseudo-labeling [0.16252563723817934]
我々は、タミル語、カナダ語、マラヤラム語のドラヴィダ語で、コードミックスされたソーシャルメディアコメント/ポストを分類する。カスタムデータセットは、コードミキシングされたすべてのテキストをそれぞれのDravidian言語に翻訳することで構築される。新たに構築されたデータセット上で、最近トレーニング済みの言語モデルをいくつか微調整する。
論文参考訳（メタデータ） (2021-08-27T08:43:08Z)
FILTER: An Enhanced Fusion Method for Cross-lingual Language Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文参考訳（メタデータ） (2020-09-10T22:42:15Z)
A Sentiment Analysis Dataset for Code-Mixed Malayalam-English [0.8454131372606295]
本稿では,マラヤラム英語のコードミキシングテキストの感情分析のためのゴールドスタンダードコーパスを提案する。我々はこのコーパスを用いて、マラヤラム英語のコードミックステキストの感情分析のベンチマークを提供する。
論文参考訳（メタデータ） (2020-05-30T07:32:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。