論文の概要: GHaLIB: A Multilingual Framework for Hope Speech Detection in Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2512.22705v1
- Date: Sat, 27 Dec 2025 21:23:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.18545
- Title: GHaLIB: A Multilingual Framework for Hope Speech Detection in Low-Resource Languages
- Title(参考訳): GHaLIB:低リソース言語における音声検出のための多言語フレームワーク
- Authors: Ahmed Abdullah, Sana Fatima, Haroon Mahmood,
- Abstract要約: 本稿では,Urduに着目した希望音声検出のための多言語フレームワークを提案する。
我々は,XLM-RoBERTa,mBERT,EuroBERT,UrduBERTなどの事前学習型トランスフォーマモデルを用いて,単純な前処理と列車分類器を適用して結果を改善する。
PolyHope-M 2025ベンチマークの評価は強い性能を示し、Urduのバイナリ分類では95.2%、Urduのマルチクラス分類では65.2%、スペイン語、ドイツ語、英語では同様の結果が得られた。
- 参考スコア(独自算出の注目度): 0.4915744683251149
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hope speech has been relatively underrepresented in Natural Language Processing (NLP). Current studies are largely focused on English, which has resulted in a lack of resources for low-resource languages such as Urdu. As a result, the creation of tools that facilitate positive online communication remains limited. Although transformer-based architectures have proven to be effective in detecting hate and offensive speech, little has been done to apply them to hope speech or, more generally, to test them across a variety of linguistic settings. This paper presents a multilingual framework for hope speech detection with a focus on Urdu. Using pretrained transformer models such as XLM-RoBERTa, mBERT, EuroBERT, and UrduBERT, we apply simple preprocessing and train classifiers for improved results. Evaluations on the PolyHope-M 2025 benchmark demonstrate strong performance, achieving F1-scores of 95.2% for Urdu binary classification and 65.2% for Urdu multi-class classification, with similarly competitive results in Spanish, German, and English. These results highlight the possibility of implementing existing multilingual models in low-resource environments, thus making it easier to identify hope speech and helping to build a more constructive digital discourse.
- Abstract(参考訳): 自然言語処理 (NLP) では, 音声の表現が比較的少なかった。
現在の研究は主に英語に焦点を当てており、ウルドゥー語のような低リソース言語のためのリソースが不足している。
その結果、ポジティブなオンラインコミュニケーションを促進するツールの開発は依然として限られている。
トランスフォーマーベースのアーキテクチャは、ヘイトや攻撃的なスピーチを検出するのに有効であることが証明されているが、それを希望する言語や、より一般的には、様々な言語的設定でテストするために応用する試みはほとんど行われていない。
本稿では,Urduに着目した希望音声検出のための多言語フレームワークを提案する。
我々は,XLM-RoBERTa,mBERT,EuroBERT,UrduBERTなどの事前学習型トランスフォーマモデルを用いて,単純な前処理と列車分類器を適用して結果を改善する。
PolyHope-M 2025ベンチマークの評価は強い性能を示し、Urduのバイナリ分類では95.2%、Urduのマルチクラス分類では65.2%、スペイン語、ドイツ語、英語では同様の結果が得られた。
これらの結果は、低リソース環境において既存の多言語モデルを実装する可能性を強調し、希望的音声を容易に識別し、より建設的なデジタル談話を構築するのに役立つ。
関連論文リスト
- Detecting Hope Across Languages: Multiclass Classification for Positive Online Discourse [4.905674855734124]
我々は、英語、ウルドゥー語、スペイン語を含む複数の言語にわたる複数クラスホープ音声検出のための機械学習アプローチを提案する。
我々は、トランスフォーマーベースのモデル、特にXLM-RoBERTaを利用して、希望のスピーチを3つの異なるクラス(一般化希望、現実的希望、非現実的希望)に分類する。
提案手法は,PolyHope-M 2025共有タスクのPolyHopeデータセットを用いて評価し,全言語間での競合性能を実現する。
論文 参考訳(メタデータ) (2025-09-30T04:16:28Z) - AIxcellent Vibes at GermEval 2025 Shared Task on Candy Speech Detection: Improving Model Performance by Span-Level Training [0.0]
46k-comment German YouTube corpusにおいて,キャンディー音声を確実に検出する方法について検討した。
マルチリンガルなXLM-RoBERTa-Largeモデルは,スパンレベルでのキャンディー音声の検出を訓練し,他の手法よりも優れていることがわかった。
我々は、スパンベーストレーニング、多言語機能、絵文字対応トークン化器による検出性能の向上を推察した。
論文 参考訳(メタデータ) (2025-09-09T07:29:14Z) - Leveraging the Potential of Prompt Engineering for Hate Speech Detection in Low-Resource Languages [2.8811725782388686]
本稿では,低リソースベンガル言語に着目した大規模言語モデル (LLM) の迅速なエンジニアリングにより,その限界を克服する方法について検討する。
我々は、ゼロショットプロンプト、拒絶抑制、分類器のフラット化、マルチショットプロンプト、ロールプロンプト、そして最後に、低リソース言語でヘイトスピーチを効果的に検出する革新的なメタファーの6つのプロンプトについて検討する。
低リソースのベンガル語におけるメタファーの有効性を証明するため、別の低リソースのヒンディー語と2つの高リソースの言語(英語とドイツ語)で評価した。
論文 参考訳(メタデータ) (2025-06-30T14:59:25Z) - Hindi as a Second Language: Improving Visually Grounded Speech with
Semantically Similar Samples [89.16814518860357]
本研究の目的は,多言語の観点からの視覚的基盤音声モデル(VGS)の学習を検討することである。
この研究における重要な貢献は、低リソース言語の性能を向上させるために、バイリンガルな視覚的基盤を持つ音声モデルにおける高リソース言語のパワーを活用することである。
論文 参考訳(メタデータ) (2023-03-30T16:34:10Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文 参考訳(メタデータ) (2021-09-28T04:43:11Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。