Fugu-MT 論文翻訳(概要): PerSoMed: A Large-Scale Balanced Dataset for Persian Social Media Text Classification

論文の概要: PerSoMed: A Large-Scale Balanced Dataset for Persian Social Media Text Classification

arxiv url: http://arxiv.org/abs/2602.19333v1
Date: Sun, 22 Feb 2026 20:53:08 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.5963
Title: PerSoMed: A Large-Scale Balanced Dataset for Persian Social Media Text Classification
Title（参考訳）: PerSoMed:ペルシアのソーシャルメディアテキスト分類のための大規模バランスデータセット
Authors: Isun Chehreh, Ebrahim Ansari,
Abstract要約: 本研究は,ペルシア初の大規模かつバランスの取れたソーシャルメディアテキスト分類データセットを紹介する。このデータセットは、9つのカテゴリ(経済、芸術、スポーツ、政治、社会、健康、心理学、歴史、科学技術)にわたる36,000のポストで構成されている。
参考スコア（独自算出の注目度）: 0.052017164170440056
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This research introduces the first large-scale, well-balanced Persian social media text classification dataset, specifically designed to address the lack of comprehensive resources in this domain. The dataset comprises 36,000 posts across nine categories (Economic, Artistic, Sports, Political, Social, Health, Psychological, Historical, and Science & Technology), each containing 4,000 samples to ensure balanced class distribution. Data collection involved 60,000 raw posts from various Persian social media platforms, followed by rigorous preprocessing and hybrid annotation combining ChatGPT-based few-shot prompting with human verification. To mitigate class imbalance, we employed undersampling with semantic redundancy removal and advanced data augmentation strategies integrating lexical replacement and generative prompting. We benchmarked several models, including BiLSTM, XLM-RoBERTa (with LoRA and AdaLoRA adaptations), FaBERT, SBERT-based architectures, and the Persian-specific TookaBERT (Base and Large). Experimental results show that transformer-based models consistently outperform traditional neural networks, with TookaBERT-Large achieving the best performance (Precision: 0.9622, Recall: 0.9621, F1- score: 0.9621). Class-wise evaluation further confirms robust performance across all categories, though social and political texts exhibited slightly lower scores due to inherent ambiguity. This research presents a new high-quality dataset and provides comprehensive evaluations of cutting-edge models, establishing a solid foundation for further developments in Persian NLP, including trend analysis, social behavior modeling, and user classification. The dataset is publicly available to support future research endeavors.
Abstract（参考訳）: この研究は、この領域における包括的なリソースの欠如に対処するために特別に設計された、大規模な、バランスのとれたペルシアのソーシャルメディアテキスト分類データセットを初めて導入する。このデータセットは、9つのカテゴリ(経済、芸術、スポーツ、政治、社会、健康、心理学、歴史、科学と技術)にわたる36,000の投稿からなり、それぞれ4000のサンプルが含まれており、バランスの取れたクラス分布を確実にしている。データ収集には、さまざまなペルシアのソーシャルメディアプラットフォームからの6万の生の投稿が含まれ、続いて、ChatGPTベースの少数ショットと人間の検証を併用した厳密な事前処理とハイブリッドアノテーションが続いた。授業の不均衡を軽減するため,意味的冗長性除去と語彙置換と生成促進を融合した高度なデータ拡張戦略を用いたアンダーサンプリングを行った。我々は、BiLSTM、XLM-RoBERTa(LoRAおよびAdaLoRA対応)、FaBERT、SBERTベースのアーキテクチャ、ペルシア固有のTookaBERT(Base and Large)など、いくつかのモデルをベンチマークした。実験結果から,TookaBERT-Largeが最高の性能を発揮する(精度: 0.9622,リコール: 0.9621,F1-スコア: 0.9621)。階級別の評価は、すべてのカテゴリーで堅牢なパフォーマンスが確認されるが、社会的および政治的テキストは、固有の曖昧さのため、わずかに低いスコアを示した。本研究は,新しい高品質データセットを提示し,最先端モデルの包括的評価を行い,トレンド分析,社会行動モデリング,ユーザ分類を含むペルシアのNLPのさらなる発展のための確かな基盤を確立する。このデータセットは、将来の研究活動をサポートするために公開されている。

関連論文リスト

Automated Analysis of Learning Outcomes and Exam Questions Based on Bloom's Taxonomy [0.0]
本稿では,ブルームの分類に基づく試験質問と学習結果の自動分類について検討する。 6つの認知カテゴリをラベル付けした600文の小さなデータセットを、従来の機械学習(ML)モデルを用いて処理した。
論文参考訳（メタデータ） (2025-11-14T02:31:12Z)
Scaling Arabic Medical Chatbots Using Synthetic Data: Enhancing Generative AI with Synthetic Patient Records [0.4666493857924357]
学習コーパスを10万レコードに拡張するためのスケーラブルな合成データ拡張戦略を提案する。元のデータセットの構造を基盤とした,コンテキスト的に関連性があり,医療的に整合性のある合成質問応答ペアを8万個生成した。
論文参考訳（メタデータ） (2025-09-12T09:58:11Z)
Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning [77.120955854093]
我々は,データ多様性が言語モデルにおける一般化の強力な予測因子であることを示す。モデル誘起勾配のエントロピーを通して多様性を定量化する計量であるG-Vendiを導入する。多様な合成データを生成するためのフレームワークであるPrismatic Synthesisを提案する。
論文参考訳（メタデータ） (2025-05-26T16:05:10Z)
So-Fake: Benchmarking and Explaining Social Media Image Forgery Detection [75.79507634008631]
So-Fake-Setは、200万以上の高品質な画像、多様な生成源、35の最先端生成モデルを用いて合成された画像を備えたソーシャルメディア指向のデータセットである。本稿では,高精度な偽造検出,高精度な位置推定,解釈可能な視覚論理による説明可能な推論に強化学習を利用する高度な視覚言語フレームワークであるSo-Fake-R1を提案する。
論文参考訳（メタデータ） (2025-05-24T11:53:35Z)
Advancing Tabular Stroke Modelling Through a Novel Hybrid Architecture and Feature-Selection Synergy [0.9999629695552196]
本研究は、ストロークを予測するように設計されたデータ駆動型、解釈可能な機械学習フレームワークを開発し、検証する。定期的に収集された人口統計、生活習慣、臨床変数は4,981件の公的なコホートから得られた。提案したモデルでは精度97.2%、F1スコア97.15%が達成され、先行する個人モデルと比較して大幅に向上した。
論文参考訳（メタデータ） (2025-05-18T21:46:45Z)
TWSSenti: A Novel Hybrid Framework for Topic-Wise Sentiment Analysis on Social Media Using Transformer Models [0.0]
本研究では,感情分類の精度と頑健性を改善するために,トランスフォーマーモデルを組み合わせたハイブリッドフレームワークについて検討する。このフレームワークは、ノイズの多いデータ、コンテキストのあいまいさ、さまざまなデータセット間の一般化といった課題に対処する。この研究は、ソーシャルメディアのモニタリング、顧客感情分析、世論の追跡など、現実世界のタスクへの適用性を強調している。
論文参考訳（メタデータ） (2025-04-14T05:44:11Z)
VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model [72.13121434085116]
我々は、LVLM(Large Vision-Language Models)におけるバイアスを評価するベンチマークであるVLBiasBenchを紹介する。 VLBiasBenchは、年齢、障害ステータス、性別、国籍、身体的外観、人種、宗教、職業、社会経済ステータスを含む9つの異なる社会バイアスのカテゴリを含むデータセットと、人種x性別と人種x社会経済ステータスの2つの交叉バイアスのカテゴリを含む。 15のオープンソースモデルと2つの高度なクローズドソースモデルに対して広範な評価を行い、これらのモデルに存在するバイアスに関する新たな洞察を得る。
論文参考訳（メタデータ） (2024-06-20T10:56:59Z)
DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。 LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文参考訳（メタデータ） (2024-03-04T22:47:58Z)
NLP-LTU at SemEval-2023 Task 10: The Impact of Data Augmentation and Semi-Supervised Learning Techniques on Text Classification Performance on an Imbalanced Dataset [1.3445335428144554]
本稿では、ソーシャルメディア投稿におけるオンライン性差別の検出と分類に焦点を当てたSemEval23のタスク10の方法論を提案する。この課題に対する我々の解決策は、細調整されたトランスフォーマーベースモデルのアンサンブルに基づいている。
論文参考訳（メタデータ） (2023-04-25T14:19:46Z)
Bootstrapping Your Own Positive Sample: Contrastive Learning With Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。 EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文参考訳（メタデータ） (2021-04-07T06:02:04Z)
Revisiting LSTM Networks for Semi-Supervised Text Classification via Mixed Objective Function [106.69643619725652]
我々は,単純なBiLSTMモデルであっても,クロスエントロピー損失でトレーニングした場合に,競争的な結果が得られるようなトレーニング戦略を開発する。いくつかのベンチマークデータセット上で,テキスト分類タスクの最先端結果について報告する。
論文参考訳（メタデータ） (2020-09-08T21:55:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。