論文の概要: EnTaCs: Analyzing the Relationship Between Sentiment and Language Choice in English-Tamil Code-Switching
- arxiv url: http://arxiv.org/abs/2603.26587v1
- Date: Fri, 27 Mar 2026 16:50:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.600771
- Title: EnTaCs: Analyzing the Relationship Between Sentiment and Language Choice in English-Tamil Code-Switching
- Title(参考訳): EnTaCs:英語-タミル語コードスイッチングにおける感性と言語選択の関係の分析
- Authors: Paul Bontempo,
- Abstract要約: 本稿では,英語・タミル語音声文における発話感情と言語選択の関係について検討する。
我々は,DravidianCodeMixデータセットから35,650個のロマライズされたYouTubeコメントに対して,トークンレベルの言語識別のための微調整XLM-RoBERTaモデルを適用した。
正の発話は、負の発話よりも英語の割合(34.3%)が有意に大きい(24.8%)。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper investigates the relationship between utterance sentiment and language choice in English-Tamil code-switched text, using methods from machine learning and statistical modelling. We apply a fine-tuned XLM-RoBERTa model for token-level language identification on 35,650 romanized YouTube comments from the DravidianCodeMix dataset, producing per-utterance measurements of English proportion and language switch frequency. Linear regression analysis reveals that positive utterances exhibit significantly greater English proportion (34.3%) than negative utterances (24.8%), and mixed-sentiment utterances show the highest language switch frequency when controlling for utterance length. These findings support the hypothesis that emotional content demonstrably influences language choice in multilingual code-switching settings, due to socio-linguistic associations of prestige and identity with embedded and matrix languages.
- Abstract(参考訳): 本稿では、機械学習と統計的モデリングの手法を用いて、英語とタミル語で書かれたテキストにおける発話感情と言語選択の関係について検討する。
我々は、DravidianCodeMixデータセットから35,650のロマライズされたYouTubeコメントに対して、トークンレベルの言語識別のための微調整XLM-RoBERTaモデルを適用し、英単語比と言語スイッチ頻度の発話毎の測定を行った。
線形回帰分析により、正の発話は負の発話(24.8%)よりもかなり大きな英語比率(34.3%)を示し、混合感の発話は発話長の制御において最も高い言語スイッチ周波数を示すことが明らかになった。
これらの知見は、感情的内容が多言語コードスイッチング設定における言語選択に明らかに影響を及ぼすという仮説を支持している。
関連論文リスト
- A Comprehensive Evaluation of Multilingual Chain-of-Thought Reasoning: Performance, Consistency, and Faithfulness Across Languages [48.68444770923683]
マルチリンガル・チェーン・オブ・ソート(CoT)推論の最初の包括的研究について述べる。
LRMがターゲット言語ですぐに考えることができる場合、言語コンプライアンス、解答精度、解答一貫性を計測する。
思考の痕跡の質と有効性は、素早い言語によって大きく異なることがわかった。
論文 参考訳(メタデータ) (2025-10-10T17:06:50Z) - False Friends Are Not Foes: Investigating Vocabulary Overlap in Multilingual Language Models [53.01170039144264]
多言語コーパスで訓練されたサブワードトークンライザは、言語間で重複するトークンを自然に生成する。
トークンの重複は言語間転送を促進するのか、それとも言語間の干渉を導入するのか?
相反する語彙を持つモデルでは、重なり合う結果が得られます。
論文 参考訳(メタデータ) (2025-09-23T07:47:54Z) - Investigating and Scaling up Code-Switching for Multilingual Language Model Pre-Training [58.696660064190475]
コンテクスト内の異なる言語間を交互に交換するコードスイッチの存在が、多言語機能の鍵であることに気付きました。
事前学習における言語アライメントのためのコードスイッチングのパワーをよりよく探求するために,合成コードスイッチングの戦略について検討する。
論文 参考訳(メタデータ) (2025-04-02T15:09:58Z) - Multilingual Sentiment Analysis of Summarized Texts: A Cross-Language Study of Text Shortening Effects [42.90274643419224]
要約は様々な形態を持つ言語における感情分析に大きな影響を及ぼす。
本研究では,英語,ドイツ語,フランス語,スペイン語,イタリア語,フィンランド語,ハンガリー語,アラビア語の感情分類における抽出的,抽象的要約効果について検討した。
論文 参考訳(メタデータ) (2025-03-31T22:16:04Z) - Sociolinguistically Informed Interpretability: A Case Study on Hinglish
Emotion Classification [8.010713141364752]
ヒングリッシュ感情分類データセットにおける3つのPLM間の感情予測に対する言語の影響について検討した。
モデルが言語選択と感情表現の関連を学習していることが分かりました。
事前トレーニングにコードミキシングされたデータが存在することで、タスク固有のデータが不足している場合の学習が増大する可能性がある。
論文 参考訳(メタデータ) (2024-02-05T16:05:32Z) - CLARA: Multilingual Contrastive Learning for Audio Representation
Acquisition [5.520654376217889]
CLARAはラベル付きデータへの依存を最小限に抑え、言語間の一般化を強化する。
我々のアプローチは、主観的評価問題を克服し、音声における感情的ニュアンスを十分に捉えている。
低リソース言語に適応し、多言語音声表現学習の進歩を示す。
論文 参考訳(メタデータ) (2023-10-18T09:31:56Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。