論文の概要: YouTube Comments Decoded: Leveraging LLMs for Low Resource Language Classification
- arxiv url: http://arxiv.org/abs/2411.05039v1
- Date: Wed, 06 Nov 2024 17:58:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:55:51.176667
- Title: YouTube Comments Decoded: Leveraging LLMs for Low Resource Language Classification
- Title(参考訳): YouTubeコメントがデコード:低リソース言語分類にLLMを活用する
- Authors: Aniket Deroy, Subhankar Maity,
- Abstract要約: コード混合テキストにおける皮肉と感情検出のための新しい金標準コーパスを提案する。
このタスクの主な目的は、タミル・イングリッシュとマラヤラム・イングリッシュのコメントとソーシャルメディアプラットフォームから収集された投稿のコード混成データセットの中で、皮肉と感情の極性を特定することである。
我々はGPT-3.5 Turboのような最先端の大規模言語モデルを実験し、コメントを皮肉的または非皮肉的なカテゴリに分類する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Sarcasm detection is a significant challenge in sentiment analysis, particularly due to its nature of conveying opinions where the intended meaning deviates from the literal expression. This challenge is heightened in social media contexts where code-mixing, especially in Dravidian languages, is prevalent. Code-mixing involves the blending of multiple languages within a single utterance, often with non-native scripts, complicating the task for systems trained on monolingual data. This shared task introduces a novel gold standard corpus designed for sarcasm and sentiment detection within code-mixed texts, specifically in Tamil-English and Malayalam-English languages. The primary objective of this task is to identify sarcasm and sentiment polarity within a code-mixed dataset of Tamil-English and Malayalam-English comments and posts collected from social media platforms. Each comment or post is annotated at the message level for sentiment polarity, with particular attention to the challenges posed by class imbalance, reflecting real-world scenarios.In this work, we experiment with state-of-the-art large language models like GPT-3.5 Turbo via prompting to classify comments into sarcastic or non-sarcastic categories. We obtained a macro-F1 score of 0.61 for Tamil language. We obtained a macro-F1 score of 0.50 for Malayalam language.
- Abstract(参考訳): サルカズムの検出は感情分析において重要な課題であり、特に、意図された意味がリテラル表現から逸脱する意見を伝える性質からである。
この課題は、特にドラヴィダ語でコードミキシングが一般的であるソーシャルメディアの文脈で高まっている。
コードミキシングは、単一の発話内で複数の言語をブレンドし、しばしばネイティブでないスクリプトと混在させ、モノリンガルデータで訓練されたシステムのタスクを複雑化する。
この共有タスクは、特にタミル語とマラヤラム語で、コードミキシングされたテキスト中の皮肉と感情検出のために設計された新しいゴールドスタンダードコーパスを導入している。
このタスクの主な目的は、タミル・イングリッシュとマラヤラム・イングリッシュのコメントとソーシャルメディアプラットフォームから収集された投稿のコード混成データセットの中で、皮肉と感情の極性を特定することである。
本研究では,GPT-3.5 Turboのような最先端の大規模言語モデルを用いて,コメントを皮肉的・非皮肉的なカテゴリに分類する。
タミル語に対するマクロF1スコア0.61を得た。
マラヤラム語のマクロF1スコア0.50を得た。
関連論文リスト
- Prompt Engineering Using GPT for Word-Level Code-Mixed Language Identification in Low-Resource Dravidian Languages [0.0]
インドのような多言語社会では、テキストはしばしばコードミキシングを示し、異なる言語レベルで現地の言語と英語をブレンドする。
本稿では,Dravidian言語における単語レベルのLI課題への対処を目的とした,共有タスクのプロンプトベース手法を提案する。
本研究では,GPT-3.5 Turboを用いて,大言語モデルが単語を正しいカテゴリに分類できるかどうかを検証した。
論文 参考訳(メタデータ) (2024-11-06T16:20:37Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - IndoRobusta: Towards Robustness Against Diverse Code-Mixed Indonesian
Local Languages [62.60787450345489]
インドネシア語で4つの組込み言語、すなわち英語、スンダ語、ジャワ語、マレー語のコードミキシングについて検討する。
我々の分析は、事前学習されたコーパスバイアスが、インドネシアと英語のコードミキシングをよりうまく処理するモデルの能力に影響することを示している。
論文 参考訳(メタデータ) (2023-11-21T07:50:53Z) - Marathi-English Code-mixed Text Generation [0.0]
コードミキシング(Code-mixing)とは、異なる言語から意味のある文を作るための言語要素のブレンドである。
本研究では、CMI(Code Mixing Index)とDCM(Degree of Code Mixing)メトリクスを用いて評価した、マラタイ英語のコードミックステキスト生成アルゴリズムを紹介する。
論文 参考訳(メタデータ) (2023-09-28T06:51:26Z) - Prompting Multilingual Large Language Models to Generate Code-Mixed
Texts: The Case of South East Asian Languages [47.78634360870564]
東南アジア7言語(SEA)のコードミキシングデータ生成のための多言語モデルの構築について検討する。
BLOOMZのような多言語学習モデルでは、異なる言語からフレーズや節でテキストを生成できないことが判明した。
ChatGPTは、コード混合テキストの生成において矛盾する機能を示しており、そのパフォーマンスはプロンプトテンプレートと言語ペアリングによって異なる。
論文 参考訳(メタデータ) (2023-03-23T18:16:30Z) - MCoNaLa: A Benchmark for Code Generation from Multiple Natural Languages [76.93265104421559]
英語以外の自然言語コマンドからコード生成をベンチマークします。
スペイン語,日本語,ロシア語の3言語で896個のNLコードペアを注釈した。
難易度はこれらの3つの言語によって異なるが、全てのシステムは英語にかなり遅れている。
論文 参考訳(メタデータ) (2022-03-16T04:21:50Z) - NUIG-Shubhanker@Dravidian-CodeMix-FIRE2020: Sentiment Analysis of
Code-Mixed Dravidian text using XLNet [0.0]
ソーシャルメディアは多言語社会に浸透してきたが、その多くは英語をコミュニケーションの言語として好んでいる。
会話中に文化的な言語と英語を混ぜることで、多言語データが多くなり、今日の世界で利用できるこのコード混在データと呼ぶのは自然なことです。
このようなデータを用いた下流NLPタスクは、複数の言語にまたがるセマンティックな性質のため、難しい。
本稿では,自動回帰XLNetモデルを用いて,タミル・イングリッシュとマラヤラム・イングリッシュ・データセットの感情分析を行う。
論文 参考訳(メタデータ) (2020-10-15T14:09:02Z) - Automatic Extraction of Rules Governing Morphological Agreement [103.78033184221373]
原文から第一パス文法仕様を抽出する自動フレームワークを開発する。
我々は、世界の多くの言語の文法の中核にあるモルフォシンタクティックな現象である合意を記述する規則の抽出に焦点をあてる。
我々のフレームワークはUniversal Dependenciesプロジェクトに含まれるすべての言語に適用され、有望な結果が得られます。
論文 参考訳(メタデータ) (2020-10-02T18:31:45Z) - NLP-CIC at SemEval-2020 Task 9: Analysing sentiment in code-switching
language using a simple deep-learning classifier [63.137661897716555]
コードスイッチングは、2つ以上の言語が同じメッセージで使用される現象である。
標準的な畳み込みニューラルネットワークモデルを用いて、スペイン語と英語の混在するツイートの感情を予測する。
論文 参考訳(メタデータ) (2020-09-07T19:57:09Z) - A Sentiment Analysis Dataset for Code-Mixed Malayalam-English [0.8454131372606295]
本稿では,マラヤラム英語のコードミキシングテキストの感情分析のためのゴールドスタンダードコーパスを提案する。
我々はこのコーパスを用いて、マラヤラム英語のコードミックステキストの感情分析のベンチマークを提供する。
論文 参考訳(メタデータ) (2020-05-30T07:32:37Z) - Corpus Creation for Sentiment Analysis in Code-Mixed Tamil-English Text [0.9235531183915556]
YouTubeのコメント投稿15,744件を含む,コード変更による感情注釈付きコーパスを作成します。
本稿では,コーパスの作成と極性を割り当てるプロセスについて述べる。
本稿では,このコーパスでトレーニングした感情分析の結果をベンチマークとして,アノテーション間の合意を提示する。
論文 参考訳(メタデータ) (2020-05-30T07:17:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。