論文の概要: Sociolinguistically Informed Interpretability: A Case Study on Hinglish
Emotion Classification
- arxiv url: http://arxiv.org/abs/2402.03137v1
- Date: Mon, 5 Feb 2024 16:05:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 15:23:44.129383
- Title: Sociolinguistically Informed Interpretability: A Case Study on Hinglish
Emotion Classification
- Title(参考訳): Sociolinguistically Informed Interpretability: A Case Study on Hinglish Emotion Classification (英語)
- Authors: Kushal Tatariya, Heather Lent, Johannes Bjerva, Miryam de Lhoneux
- Abstract要約: ヒングリッシュ感情分類データセットにおける3つのPLM間の感情予測に対する言語の影響について検討した。
モデルが言語選択と感情表現の関連を学習していることが分かりました。
事前トレーニングにコードミキシングされたデータが存在することで、タスク固有のデータが不足している場合の学習が増大する可能性がある。
- 参考スコア(独自算出の注目度): 8.010713141364752
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emotion classification is a challenging task in NLP due to the inherent
idiosyncratic and subjective nature of linguistic expression, especially with
code-mixed data. Pre-trained language models (PLMs) have achieved high
performance for many tasks and languages, but it remains to be seen whether
these models learn and are robust to the differences in emotional expression
across languages. Sociolinguistic studies have shown that Hinglish speakers
switch to Hindi when expressing negative emotions and to English when
expressing positive emotions. To understand if language models can learn these
associations, we study the effect of language on emotion prediction across 3
PLMs on a Hinglish emotion classification dataset. Using LIME and token level
language ID, we find that models do learn these associations between language
choice and emotional expression. Moreover, having code-mixed data present in
the pre-training can augment that learning when task-specific data is scarce.
We also conclude from the misclassifications that the models may overgeneralise
this heuristic to other infrequent examples where this sociolinguistic
phenomenon does not apply.
- Abstract(参考訳): 感情分類は、言語表現の固有の慣用的・主観的な性質、特にコード混合データにより、NLPでは難しい課題である。
プレトレーニング言語モデル(PLM)は多くのタスクや言語に対して高いパフォーマンスを達成しているが、これらのモデルが学習し、言語間の感情表現の違いに対して堅牢であるかどうかは不明だ。
社会言語学の研究では、ヒンディー語話者は否定的な感情を表すヒンディー語に、ポジティブな感情を表す場合は英語に切り替えることが示されている。
言語モデルがこれらの関連を学習できるかを理解するために,Hinglish感情分類データセット上での3つのPLM間の感情予測に対する言語の影響について検討する。
LIME とトークンレベル言語 ID を用いて、モデルが言語選択と感情表現の関連を学習していることが分かる。
さらに、事前トレーニング中にコード混合データを持つことで、タスク固有のデータが不足している場合の学習を増強することができる。
また、このモデルがヒューリスティックを、この社会言語学的現象が適用されない他の脆弱な例に過大に一般化する可能性があるという誤分類から結論づける。
関連論文リスト
- Recognizing Emotion Regulation Strategies from Human Behavior with Large Language Models [44.015651538470856]
人間の感情は直接表現されないことが多いが、内部のプロセスや社会的表示規則に従って制御される。
ユーザ間のシナリオで異なる感情制御戦略を自動的に分類する方法は存在しない。
我々は最近導入されたtextscDeepコーパスを利用して、感情の恥の社会的表示をモデル化する。
微調整されたLlama2-7Bモデルは、利用した感情制御戦略を高精度に分類することができる。
論文 参考訳(メタデータ) (2024-08-08T12:47:10Z) - MASIVE: Open-Ended Affective State Identification in English and Spanish [10.41502827362741]
本研究は,人間が感情経験を説明するために使用する言葉を含む,事実上拘束力のないテクスタフェクティブな状態にまで範囲を広げる。
私たちは、英語とスペイン語でReddit投稿のデータセットであるMASIVEを収集し、公開しています。
このタスクでは、より小さな微調整された多言語モデルの方が、地域固有のスペイン感情状態においても、ずっと大きなLLMより優れていることが分かる。
論文 参考訳(メタデータ) (2024-07-16T21:43:47Z) - English Prompts are Better for NLI-based Zero-Shot Emotion
Classification than Target-Language Prompts [17.099269597133265]
たとえデータが異なる言語であっても、英語のプロンプトを使う方が一貫して良いことを示す。
自然言語推論に基づく言語モデルを用いた実験は、データが異なる言語である場合でも、英語のプロンプトを使う方が一貫して良いことを示す。
論文 参考訳(メタデータ) (2024-02-05T17:36:19Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - SpanEmo: Casting Multi-label Emotion Classification as Span-prediction [15.41237087996244]
マルチラベル感情分類をスパンプレディションとした新しいモデル「SpanEmo」を提案する。
入力文中の複数の共存感情をモデル化することに焦点を当てた損失関数を導入する。
SemEval2018マルチラベル感情データを3つの言語セットで実験した結果,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-01-25T12:11:04Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - On Negative Interference in Multilingual Models: Findings and A
Meta-Learning Treatment [59.995385574274785]
従来の信念に反して、負の干渉は低リソース言語にも影響を及ぼすことを示す。
メタ学習アルゴリズムは、より優れた言語間変換性を得、負の干渉を軽減する。
論文 参考訳(メタデータ) (2020-10-06T20:48:58Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。