論文の概要: 1-800-SHARED-TASKS @ NLU of Devanagari Script Languages: Detection of Language, Hate Speech, and Targets using LLMs
- arxiv url: http://arxiv.org/abs/2411.06850v1
- Date: Mon, 11 Nov 2024 10:34:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:12:53.150504
- Title: 1-800-SHARED-TASKS @ NLU of Devanagari Script Languages: Detection of Language, Hate Speech, and Targets using LLMs
- Title(参考訳): 1-800-SHARED-TASKS @NLU of Devanagari Script Languages: Detection of Language, Hate Speech and Targets using LLMs
- Authors: Jebish Purbey, Siddartha Pullakhandam, Kanwal Mehreen, Muhammad Arham, Drishti Sharma, Ashay Srivastava, Ram Mohan Rao Kadiyala,
- Abstract要約: 本稿では,CHiPSAL 2025共有タスクの入力に関する詳細なシステム記述について述べる。
本稿では,Devanagariスクリプト言語における言語検出,ヘイトスピーチ識別,ターゲット検出に焦点をあてる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper presents a detailed system description of our entry for the CHiPSAL 2025 shared task, focusing on language detection, hate speech identification, and target detection in Devanagari script languages. We experimented with a combination of large language models and their ensembles, including MuRIL, IndicBERT, and Gemma-2, and leveraged unique techniques like focal loss to address challenges in the natural understanding of Devanagari languages, such as multilingual processing and class imbalance. Our approach achieved competitive results across all tasks: F1 of 0.9980, 0.7652, and 0.6804 for Sub-tasks A, B, and C respectively. This work provides insights into the effectiveness of transformer models in tasks with domain-specific and linguistic challenges, as well as areas for potential improvement in future iterations.
- Abstract(参考訳): 本稿では, 言語検出, ヘイトスピーチ識別, ターゲット検出に着目したCHiPSAL 2025共有タスクのシステム記述について述べる。
我々は,MRIL,IndicBERT,Gemma-2など,大規模言語モデルとそれらのアンサンブルを組み合わせた実験を行い,多言語処理やクラス不均衡といった,Devonagari言語の自然な理解における課題に対処するために,焦点損失などのユニークなテクニックを利用した。
サブタスクA,B,CのF1は0.9980,0.7652,0.6804である。
この研究は、ドメイン固有で言語的な課題のあるタスクにおけるトランスフォーマーモデルの有効性に関する洞察と、将来のイテレーションにおける潜在的な改善の分野を提供する。
関連論文リスト
- Hate Speech and Offensive Content Detection in Indo-Aryan Languages: A
Battle of LSTM and Transformers [0.0]
我々はベンガル語、アサメセ語、ボド語、シンハラ語、グジャラート語の5つの異なる言語でヘイトスピーチの分類を比較した。
Bert Base Multilingual Casedは、ベンガル語で0.67027得点、アサメ語で0.70525得点を達成した。
シンハラではXLM-RはF1スコア0.83493で際立っているが、グジャラティではF1スコア0.76601で照らされたカスタムLSTMベースのモデルである。
論文 参考訳(メタデータ) (2023-12-09T20:24:00Z) - On the Off-Target Problem of Zero-Shot Multilingual Neural Machine
Translation [104.85258654917297]
識別対象言語信号の符号化に失敗すると、オフターゲットとなり、語彙距離が近くなることが判明した。
多言語語彙構築のための言語認識語彙共有(LAVS)を提案する。
我々は11言語で多言語機械翻訳ベンチマーク実験を行った。
論文 参考訳(メタデータ) (2023-05-18T12:43:31Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Modeling Profanity and Hate Speech in Social Media with Semantic
Subspaces [15.457286059556393]
特に英語以外の言語では、憎しみの言葉と憎しみの検知は、データの拡散に悩まされる。
代名詞部分空間を単語と文表現で識別し,その一般化能力を探求する。
類似したタスクと遠方のタスク、およびすべての言語において、サブスペースベースの表現は標準のBERT表現よりも効果的に転送される。
論文 参考訳(メタデータ) (2021-06-14T15:34:37Z) - TransWiC at SemEval-2021 Task 2: Transformer-based Multilingual and
Cross-lingual Word-in-Context Disambiguation [0.8883733362171032]
我々のアプローチは事前訓練されたトランスフォーマーモデルに基づいており、言語固有の処理やリソースは一切使用しない。
本モデルでは,英語サブタスクの精度が0.90であり,その精度は0.93である。
我々のアプローチは、他のモノリンガル言語とクロスランガル言語の組み合わせで満足できる結果も達成します。
論文 参考訳(メタデータ) (2021-04-09T23:06:05Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Cross-Lingual Transfer Learning for Complex Word Identification [0.3437656066916039]
複合単語識別(CWI)は、テキスト中の難解な単語を検出することに焦点を当てたタスクである。
我々のアプローチでは、自然言語処理(NLP)タスクのための最先端のソリューションとともに、ゼロショット、ワンショット、および少数ショットの学習技術を使用します。
本研究の目的は,多言語環境下で複雑な単語の特徴を学習できることを示すことである。
論文 参考訳(メタデータ) (2020-10-02T17:09:47Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - UPB at SemEval-2020 Task 9: Identifying Sentiment in Code-Mixed Social
Media Texts using Transformers and Multi-Task Learning [1.7196613099537055]
本研究チームは,SemEval-2020 Task 9のために開発したシステムについて述べる。
私たちは、ヒンディー語とスペイン語の2つのよく知られた混成言語をカバーすることを目指しています。
提案手法は, 平均F1スコアが0.6850であるヒンディー語タスクにおいて, 有望な性能を達成する。
スペイン語と英語のタスクでは、29人中17人として、平均で0.7064のF1スコアを獲得しました。
論文 参考訳(メタデータ) (2020-09-06T17:19:18Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。