論文の概要: Hope Speech Detection in code-mixed Roman Urdu tweets: A Positive Turn in Natural Language Processing
- arxiv url: http://arxiv.org/abs/2506.21583v1
- Date: Tue, 17 Jun 2025 06:31:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-07 02:47:44.299946
- Title: Hope Speech Detection in code-mixed Roman Urdu tweets: A Positive Turn in Natural Language Processing
- Title(参考訳): コードミキシングされたローマ・ウルドゥー語ツイートにおけるホープ音声検出:自然言語処理における肯定的なターン
- Authors: Muhammad Ahmad, Muhammad Waqas, Ameer Hamza, Ildar Batyrshin, Grigori Sidorov,
- Abstract要約: 本研究では,ロマン・ウルドゥ・ホープ音声のためのマルチクラスアノテートデータセットについて紹介する。
希望の心理的基礎を探求し、その言語パターンを分析する。
ローマ・ウルドゥーの統語的・意味的変動性を最適化するカスタムアテンションベースのトランスフォーマーモデルを提案する。
- 参考スコア(独自算出の注目度): 6.34691005108325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hope is a positive emotional state involving the expectation of favorable future outcomes, while hope speech refers to communication that promotes optimism, resilience, and support, particularly in adverse contexts. Although hope speech detection has gained attention in Natural Language Processing (NLP), existing research mainly focuses on high-resource languages and standardized scripts, often overlooking informal and underrepresented forms such as Roman Urdu. To the best of our knowledge, this is the first study to address hope speech detection in code-mixed Roman Urdu by introducing a carefully annotated dataset, thereby filling a critical gap in inclusive NLP research for low-resource, informal language varieties. This study makes four key contributions: (1) it introduces the first multi-class annotated dataset for Roman Urdu hope speech, comprising Generalized Hope, Realistic Hope, Unrealistic Hope, and Not Hope categories; (2) it explores the psychological foundations of hope and analyzes its linguistic patterns in code-mixed Roman Urdu to inform dataset development; (3) it proposes a custom attention-based transformer model optimized for the syntactic and semantic variability of Roman Urdu, evaluated using 5-fold cross-validation; and (4) it verifies the statistical significance of performance gains using a t-test. The proposed model, XLM-R, achieves the best performance with a cross-validation score of 0.78, outperforming the baseline SVM (0.75) and BiLSTM (0.76), with gains of 4% and 2.63% respectively.
- Abstract(参考訳): 希望は、望ましい将来の成果を期待することを含む肯定的な感情状態であり、ホープスピーチは、特に有害な状況において、楽観主義、レジリエンス、サポートを促進するコミュニケーションを指す。
自然言語処理 (NLP) では音声検出が注目されているが、既存の研究は主に高ソース言語と標準化されたスクリプトに焦点を当てており、しばしばローマ・ウルドゥーのような非公式で表現の浅い形式を見下ろしている。
我々の知る限り、この研究は、コード混在のロマン・ウルドゥー語における希望音声検出に、注意深い注釈付きデータセットを導入し、低リソース、非公式な言語変種に対する包括的NLP研究において重要なギャップを埋める最初の研究である。
本研究は,(1)汎用ホープ,リアリスティックホープ,非現実的ホープ,およびノットホープを含む,ローマ・ウルドゥー語における最初のマルチクラス・アノテートデータセットの導入,(2)コードの混在するローマ・ウルドゥー語における言語パターンを探索し,データセット開発を通知する,(3)5倍のクロスバリデーションを用いて評価した,ロマン・ウルドゥー語の統語的・意味的変動に最適化されたカスタムアテンションベースのトランスフォーマーモデルの提案,(4)tテストを用いてパフォーマンス向上の統計的意義を検証した,4つの重要な貢献を行う。
提案したXLM-Rはクロスバリデーションスコア0.78で最高の性能を示し、ベースラインのSVM (0.75) と BiLSTM (0.76) をそれぞれ4%と2.63%で上回った。
関連論文リスト
- CrosGrpsABS: Cross-Attention over Syntactic and Semantic Graphs for Aspect-Based Sentiment Analysis in a Low-Resource Language [0.5937476291232802]
Aspect-Based Sentiment Analysis (ABSA) は自然言語処理の基本的なタスクであり、テキストで表現された意見に対するきめ細かい洞察を提供する。
本研究は,構文グラフとセマンティックグラフ間の双方向の相互アテンションを活用し,アスペクトレベルの感情分類を強化する新しいハイブリッドフレームワークであるCrosGrpsABSを提案する。
低リソースのBengali ABSAデータセットと高リソースのSemEval 2014 Task 4データセットでCrosGrpsABSを評価した。
論文 参考訳(メタデータ) (2025-05-25T07:42:32Z) - Enhanced Urdu Intent Detection with Large Language Models and Prototype-Informed Predictive Pipelines [5.191443390565865]
本稿では,未ラベルのUrduデータを利用して事前学習した言語モデルを再学習する,ユニークなコントラスト学習手法を提案する。
事前訓練されたLLMとプロトタイプにインフォームドされたアテンション機構を組み合わせることで、エンドツーエンドのインテント検出パイプラインを生成する。
提案する予測パイプラインのパラダイムの下で、6つの異なる言語モデルと13の異なる類似性計算手法の可能性を探求する。
論文 参考訳(メタデータ) (2025-05-08T08:38:40Z) - Low-Resource Transliteration for Roman-Urdu and Urdu Using Transformer-Based Models [0.6554326244334868]
ウルドゥー語とそのローマ字形であるウルドゥー語との音訳は未発見のままである。
我々はm2m100多言語翻訳モデルを用いたトランスフォーマーに基づく手法を提案する。
我々のモデルは、ウルドゥー語で96.37点、ウルドゥー語で97.44点、ウルドゥー語で96.37点という高い音訳性能を達成している。
論文 参考訳(メタデータ) (2025-03-27T14:18:50Z) - A New Method for Cross-Lingual-based Semantic Role Labeling [5.992526851963307]
英語とペルシア語のセマンティック・ロール・ラベリングを訓練するためのディープラーニングアルゴリズムが提案されている。
その結果,Niksirt et al.のモデルと比較すると,有意な改善が認められた。
セマンティックロールラベリングのための言語間メソッドの開発は、約束を守る。
論文 参考訳(メタデータ) (2024-08-28T16:06:12Z) - PolyHope: Two-Level Hope Speech Detection from Tweets [68.8204255655161]
その重要性にもかかわらず、希望はソーシャルメディア分析タスクとして研究されることはめったにない。
本稿では、まず各ツイートを「ホップ」と「ノーホープ」に分類するホープ音声データセットを提案する。
2022年前半の英語のつぶやきは、このデータセットを構築するために集められた。
論文 参考訳(メタデータ) (2022-10-25T16:34:03Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - Mr. TyDi: A Multi-lingual Benchmark for Dense Retrieval [51.004601358498135]
Mr. TyDiは、11の類型的多様言語における単言語検索のためのベンチマークデータセットである。
このリソースの目的は、非英語言語における高密度検索技術の研究を促進することである。
論文 参考訳(メタデータ) (2021-08-19T16:53:43Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z) - A Precisely Xtreme-Multi Channel Hybrid Approach For Roman Urdu
Sentiment Analysis [0.8812173669205371]
本稿では,Word2vec,FastText,Gloveという,最も広く使われているアプローチを用いて構築した3つのニューラルワード埋め込みについて述べる。
公開されているベンチマークデータセットが欠如していることを考えると、初となるRoman Urduデータセットを提供しており、正、負、中立のクラスに対して注釈付けされた3241の感情で構成されている。
最先端の機械とディープラーニングの手法を、F1スコアで9%、F1スコアで4%で上回る、極めて極端なマルチチャネルハイブリッド手法を提案する。
論文 参考訳(メタデータ) (2020-03-11T04:08:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。