論文の概要: Advancing Sentiment Analysis in Tamil-English Code-Mixed Texts: Challenges and Transformer-Based Solutions
- arxiv url: http://arxiv.org/abs/2503.23295v1
- Date: Sun, 30 Mar 2025 03:27:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:57.041877
- Title: Advancing Sentiment Analysis in Tamil-English Code-Mixed Texts: Challenges and Transformer-Based Solutions
- Title(参考訳): タミル・イングリッシュ・コード・ミキシング・テキストの感性分析 : 課題とトランスフォーマー・ベース・ソリューション
- Authors: Mikhail Krasitskii, Olga Kolesnikova, Liliana Chanona Hernandez, Grigori Sidorov, Alexander Gelbukh,
- Abstract要約: 先進的なトランスフォーマーモデルを用いて,タミル・イングリッシュ・コード・ミックステキストにおける感情分析タスクについて検討した。
既存のデータセットとアノテーションギャップの制限について検討し、より大きく多様なコーパスの必要性を強調した。
- 参考スコア(独自算出の注目度): 42.90274643419224
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The sentiment analysis task in Tamil-English code-mixed texts has been explored using advanced transformer-based models. Challenges from grammatical inconsistencies, orthographic variations, and phonetic ambiguities have been addressed. The limitations of existing datasets and annotation gaps have been examined, emphasizing the need for larger and more diverse corpora. Transformer architectures, including XLM-RoBERTa, mT5, IndicBERT, and RemBERT, have been evaluated in low-resource, code-mixed environments. Performance metrics have been analyzed, highlighting the effectiveness of specific models in handling multilingual sentiment classification. The findings suggest that further advancements in data augmentation, phonetic normalization, and hybrid modeling approaches are required to enhance accuracy. Future research directions for improving sentiment analysis in code-mixed texts have been proposed.
- Abstract(参考訳): 先進的なトランスフォーマーモデルを用いて,タミル・イングリッシュ・コード・ミックステキストにおける感情分析タスクについて検討した。
文法的不整合、正書法的変化、音韻的あいまいさからの課題が解決されている。
既存のデータセットとアノテーションギャップの制限について検討し、より大きく多様なコーパスの必要性を強調した。
XLM-RoBERTa、mT5、IndicBERT、RemBERTなどのトランスフォーマーアーキテクチャは、低リソースのコード混合環境で評価されている。
パフォーマンスメトリクスは分析され、多言語感情分類を扱う際の特定のモデルの有効性を強調している。
この結果から, データの増大, 音素正規化, ハイブリッドモデリング手法のさらなる進歩が, 精度の向上に必要であることが示唆された。
コード混在テキストにおける感情分析を改善するための今後の研究指針が提案されている。
関連論文リスト
- Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - MoCE: Adaptive Mixture of Contextualization Experts for Byte-based Neural Machine Translation [13.70446799743065]
バイトベースの機械翻訳システムは、多言語設定において大きな可能性を秘めている。
Unicode符号化は、新しい言語でも未知の単語の出現を排除し、各文字を特定のバイトにマッピングする。
局所的な文脈化は、初期意味論をトークンに割り当て、文理解を改善するのに有効であることが証明されている。
本研究では,コンテキスト化エキスパートとして扱われる注意ヘッドを適応的に選択・混合する,コンテキスト化エキスパートの混合(MoCE)を提案する。
論文 参考訳(メタデータ) (2024-11-03T08:15:43Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - Language Model Decoding as Direct Metrics Optimization [87.68281625776282]
現在の復号法は、異なる側面にわたる人間のテキストと整合するテキストを生成するのに苦労している。
本研究では,言語モデルからの復号化を最適化問題として,期待される性能と人間のテキストとの厳密なマッチングを目的とした。
この誘導分布は,人間のテキストの難易度を向上させることが保証されていることを証明し,人間のテキストの基本的な分布に対するより良い近似を示唆する。
論文 参考訳(メタデータ) (2023-10-02T09:35:27Z) - Leveraging Language Identification to Enhance Code-Mixed Text
Classification [0.7340017786387767]
既存のディープラーニングモデルは、コード混合テキストの暗黙の言語情報を活用できない。
本研究の目的は,低リソースのCode-Mixed Hindi- Englishデータセット上でのBERTモデルの性能向上である。
論文 参考訳(メタデータ) (2023-06-08T06:43:10Z) - Comparative Study of Pre-Trained BERT Models for Code-Mixed
Hindi-English Data [0.7874708385247353]
コードミックス(Code Mixed)とは、複数の言語を同一のテキストで使用すること。
本研究では、低リソースのヒンディー語-英語のコード混合言語に焦点を当てる。
我々は,HingBERTに基づくモデルを用いて,各データセットの最先端結果について報告する。
論文 参考訳(メタデータ) (2023-05-25T05:10:28Z) - Multilingual Extraction and Categorization of Lexical Collocations with
Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。
以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文 参考訳(メタデータ) (2022-05-23T16:47:37Z) - Detecting Unassimilated Borrowings in Spanish: An Annotated Corpus and
Approaches to Modeling [2.741266294612776]
非同化語彙借入に富んだスペイン語ニュースワイヤの注釈付きコーパスを導入する。
我々は,CRF,BiLSTM-CRF,Transformer-basedモデルなど,複数のシーケンスラベリングモデルがどのように動作するかを評価する。
論文 参考訳(メタデータ) (2022-03-30T09:46:51Z) - To Augment or Not to Augment? A Comparative Study on Text Augmentation
Techniques for Low-Resource NLP [0.0]
本稿では,構文の変更を行うテキスト拡張手法の3つのカテゴリについて検討する。
音声のタグ付けや依存性解析,セマンティックロールのラベル付けなどにおいて,多種多様な言語ファミリに対して比較を行った。
以上の結果から,mBERTに基づくベースラインの強化により,より高機能化が可能であることが示唆された。
論文 参考訳(メタデータ) (2021-11-18T10:52:48Z) - mT6: Multilingual Pretrained Text-to-Text Transformer with Translation
Pairs [51.67970832510462]
翻訳ペア(mt6)を用いた多言語テキスト間トランスフォーマーの改良
本研究では,機械翻訳,翻訳ペアスパン破壊,翻訳スパン破壊という3つの言語間事前学習タスクについて検討した。
実験の結果,mT6はmT5よりも舌間移動性が向上することがわかった。
論文 参考訳(メタデータ) (2021-04-18T03:24:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。