論文の概要: PerSoMed: A Large-Scale Balanced Dataset for Persian Social Media Text Classification
- arxiv url: http://arxiv.org/abs/2602.19333v1
- Date: Sun, 22 Feb 2026 20:53:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.5963
- Title: PerSoMed: A Large-Scale Balanced Dataset for Persian Social Media Text Classification
- Title(参考訳): PerSoMed:ペルシアのソーシャルメディアテキスト分類のための大規模バランスデータセット
- Authors: Isun Chehreh, Ebrahim Ansari,
- Abstract要約: 本研究は,ペルシア初の大規模かつバランスの取れたソーシャルメディアテキスト分類データセットを紹介する。
このデータセットは、9つのカテゴリ(経済、芸術、スポーツ、政治、社会、健康、心理学、歴史、科学技術)にわたる36,000のポストで構成されている。
- 参考スコア(独自算出の注目度): 0.052017164170440056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This research introduces the first large-scale, well-balanced Persian social media text classification dataset, specifically designed to address the lack of comprehensive resources in this domain. The dataset comprises 36,000 posts across nine categories (Economic, Artistic, Sports, Political, Social, Health, Psychological, Historical, and Science & Technology), each containing 4,000 samples to ensure balanced class distribution. Data collection involved 60,000 raw posts from various Persian social media platforms, followed by rigorous preprocessing and hybrid annotation combining ChatGPT-based few-shot prompting with human verification. To mitigate class imbalance, we employed undersampling with semantic redundancy removal and advanced data augmentation strategies integrating lexical replacement and generative prompting. We benchmarked several models, including BiLSTM, XLM-RoBERTa (with LoRA and AdaLoRA adaptations), FaBERT, SBERT-based architectures, and the Persian-specific TookaBERT (Base and Large). Experimental results show that transformer-based models consistently outperform traditional neural networks, with TookaBERT-Large achieving the best performance (Precision: 0.9622, Recall: 0.9621, F1- score: 0.9621). Class-wise evaluation further confirms robust performance across all categories, though social and political texts exhibited slightly lower scores due to inherent ambiguity. This research presents a new high-quality dataset and provides comprehensive evaluations of cutting-edge models, establishing a solid foundation for further developments in Persian NLP, including trend analysis, social behavior modeling, and user classification. The dataset is publicly available to support future research endeavors.
- Abstract(参考訳): この研究は、この領域における包括的なリソースの欠如に対処するために特別に設計された、大規模な、バランスのとれたペルシアのソーシャルメディアテキスト分類データセットを初めて導入する。
このデータセットは、9つのカテゴリ(経済、芸術、スポーツ、政治、社会、健康、心理学、歴史、科学と技術)にわたる36,000の投稿からなり、それぞれ4000のサンプルが含まれており、バランスの取れたクラス分布を確実にしている。
データ収集には、さまざまなペルシアのソーシャルメディアプラットフォームからの6万の生の投稿が含まれ、続いて、ChatGPTベースの少数ショットと人間の検証を併用した厳密な事前処理とハイブリッドアノテーションが続いた。
授業の不均衡を軽減するため,意味的冗長性除去と語彙置換と生成促進を融合した高度なデータ拡張戦略を用いたアンダーサンプリングを行った。
我々は、BiLSTM、XLM-RoBERTa(LoRAおよびAdaLoRA対応)、FaBERT、SBERTベースのアーキテクチャ、ペルシア固有のTookaBERT(Base and Large)など、いくつかのモデルをベンチマークした。
実験結果から,TookaBERT-Largeが最高の性能を発揮する(精度: 0.9622,リコール: 0.9621,F1-スコア: 0.9621)。
階級別の評価は、すべてのカテゴリーで堅牢なパフォーマンスが確認されるが、社会的および政治的テキストは、固有の曖昧さのため、わずかに低いスコアを示した。
本研究は,新しい高品質データセットを提示し,最先端モデルの包括的評価を行い,トレンド分析,社会行動モデリング,ユーザ分類を含むペルシアのNLPのさらなる発展のための確かな基盤を確立する。
このデータセットは、将来の研究活動をサポートするために公開されている。
関連論文リスト
- Automated Analysis of Learning Outcomes and Exam Questions Based on Bloom's Taxonomy [0.0]
本稿では,ブルームの分類に基づく試験質問と学習結果の自動分類について検討する。
6つの認知カテゴリをラベル付けした600文の小さなデータセットを、従来の機械学習(ML)モデルを用いて処理した。
論文 参考訳(メタデータ) (2025-11-14T02:31:12Z) - Scaling Arabic Medical Chatbots Using Synthetic Data: Enhancing Generative AI with Synthetic Patient Records [0.4666493857924357]
学習コーパスを10万レコードに拡張するためのスケーラブルな合成データ拡張戦略を提案する。
元のデータセットの構造を基盤とした,コンテキスト的に関連性があり,医療的に整合性のある合成質問応答ペアを8万個生成した。
論文 参考訳(メタデータ) (2025-09-12T09:58:11Z) - So-Fake: Benchmarking and Explaining Social Media Image Forgery Detection [75.79507634008631]
So-Fake-Setは、200万以上の高品質な画像、多様な生成源、35の最先端生成モデルを用いて合成された画像を備えたソーシャルメディア指向のデータセットである。
本稿では,高精度な偽造検出,高精度な位置推定,解釈可能な視覚論理による説明可能な推論に強化学習を利用する高度な視覚言語フレームワークであるSo-Fake-R1を提案する。
論文 参考訳(メタデータ) (2025-05-24T11:53:35Z) - Advancing Tabular Stroke Modelling Through a Novel Hybrid Architecture and Feature-Selection Synergy [0.9999629695552196]
本研究は、ストロークを予測するように設計されたデータ駆動型、解釈可能な機械学習フレームワークを開発し、検証する。
定期的に収集された人口統計、生活習慣、臨床変数は4,981件の公的なコホートから得られた。
提案したモデルでは精度97.2%、F1スコア97.15%が達成され、先行する個人モデルと比較して大幅に向上した。
論文 参考訳(メタデータ) (2025-05-18T21:46:45Z) - TWSSenti: A Novel Hybrid Framework for Topic-Wise Sentiment Analysis on Social Media Using Transformer Models [0.0]
本研究では,感情分類の精度と頑健性を改善するために,トランスフォーマーモデルを組み合わせたハイブリッドフレームワークについて検討する。
このフレームワークは、ノイズの多いデータ、コンテキストのあいまいさ、さまざまなデータセット間の一般化といった課題に対処する。
この研究は、ソーシャルメディアのモニタリング、顧客感情分析、世論の追跡など、現実世界のタスクへの適用性を強調している。
論文 参考訳(メタデータ) (2025-04-14T05:44:11Z) - VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model [72.13121434085116]
我々は、LVLM(Large Vision-Language Models)におけるバイアスを評価するベンチマークであるVLBiasBenchを紹介する。
VLBiasBenchは、年齢、障害ステータス、性別、国籍、身体的外観、人種、宗教、職業、社会経済ステータスを含む9つの異なる社会バイアスのカテゴリを含むデータセットと、人種x性別と人種x社会経済ステータスの2つの交叉バイアスのカテゴリを含む。
15のオープンソースモデルと2つの高度なクローズドソースモデルに対して広範な評価を行い、これらのモデルに存在するバイアスに関する新たな洞察を得る。
論文 参考訳(メタデータ) (2024-06-20T10:56:59Z) - NLP-LTU at SemEval-2023 Task 10: The Impact of Data Augmentation and
Semi-Supervised Learning Techniques on Text Classification Performance on an
Imbalanced Dataset [1.3445335428144554]
本稿では、ソーシャルメディア投稿におけるオンライン性差別の検出と分類に焦点を当てたSemEval23のタスク10の方法論を提案する。
この課題に対する我々の解決策は、細調整されたトランスフォーマーベースモデルのアンサンブルに基づいている。
論文 参考訳(メタデータ) (2023-04-25T14:19:46Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。