論文の概要: Not All Pretraining are Created Equal: Threshold Tuning and Class Weighting for Imbalanced Polarization Tasks in Low-Resource Settings
- arxiv url: http://arxiv.org/abs/2603.23534v1
- Date: Sun, 08 Mar 2026 15:50:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:13.024925
- Title: Not All Pretraining are Created Equal: Threshold Tuning and Class Weighting for Imbalanced Polarization Tasks in Low-Resource Settings
- Title(参考訳): すべての事前訓練が等しく作成されるわけではない:低リソース環境における不均衡偏極タスクに対する閾値調整とクラス重み付け
- Authors: Abass Oguntade,
- Abstract要約: 本稿では,SemEval-2025における分極共有タスクへの私の提出について述べる。
英語とスワヒリ語のためのトランスフォーマーベースシステムを開発した。二分極検出,多ラベルターゲット型分類,多ラベル表示識別という3つのサブタスクである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes my submission to the Polarization Shared Task at SemEval-2025, which addresses polarization detection and classification in social media text. I develop Transformer-based systems for English and Swahili across three subtasks: binary polarization detection, multi-label target type classification, and multi-label manifestation identification. The approach leverages multilingual and African language-specialized models (mDeBERTa-v3-base, SwahBERT, AfriBERTa-large), class-weighted loss functions, iterative stratified data splitting, and per-label threshold tuning to handle severe class imbalance. The best configuration, mDeBERTa-v3-base, achieves 0.8032 macro-F1 on validation for binary detection, with competitive performance on multi-label tasks (up to 0.556 macro-F1). Error analysis reveals persistent challenges with implicit polarization, code-switching, and distinguishing heated political discourse from genuine polarization.
- Abstract(参考訳): 本稿では,SemEval-2025における分極共有タスクへの私の提出について述べる。
英語とスワヒリ語のためのトランスフォーマーベースシステムを開発した。二分極検出,多ラベルターゲット型分類,多ラベル表示識別という3つのサブタスクである。
このアプローチでは、多言語およびアフリカの言語特化モデル(mDeBERTa-v3-base, SwahBERT, AfriBERTa-large)、クラス重み付き損失関数、反復成層データ分割、ラベル単位のしきい値調整を活用して、厳しいクラス不均衡を処理する。
最高の構成であるmDeBERTa-v3-baseは、バイナリ検出の検証で0.8032マクロF1を達成する。
誤り分析は暗黙の分極、コードスイッチング、加熱された政治談話と真の分極を区別するといった永続的な課題を明らかにする。
関連論文リスト
- SERSEM: Selective Entropy-Weighted Scoring for Membership Inference in Code Language Models [1.327416973220814]
記憶信号の増幅のために非形式的統語的ボイラプレートを抑える新しいホワイトボックス攻撃フレームワークであるSERSEMを提案する。
以上の結果から,人間中心の符号化異常に注目することは,列レベルの確率平均よりも格段に頑健な暗記の指標となることが示唆された。
論文 参考訳(メタデータ) (2026-04-01T17:03:58Z) - MultiMatch: Multihead Consistency Regularization Matching for Semi-Supervised Text Classification [41.135013117834795]
我々は、協調学習と整合性正規化のパラダイムを擬似ラベルで組み合わせた、新しい半教師付き学習(SSL)アルゴリズムであるMultiMatchを紹介する。
コアとなるMultiMatchは、ヘッドアグリーメントとモデルの信頼性に基づいた擬似ラベルの選択とフィルタリングのために設計された擬似ラベル重み付けモジュールを備えている。
論文 参考訳(メタデータ) (2025-06-09T14:27:47Z) - Adaptive Thresholding for Multi-Label Classification via Global-Local Signal Fusion [0.0]
マルチラベル分類 (MLC) ではサンプル毎に複数のラベルを予測する必要がある。
従来のアプローチでは、固定しきい値を適用したり、ラベルを個別に扱うことで、コンテキストやグローバルな希少性を見渡せる。
我々は、グローバル(IDFベース)とローカル(KNNベース)の信号を融合して、ラベルごとの閾値を生成する適応しきい値設定機構を導入する。
論文 参考訳(メタデータ) (2025-05-06T02:19:37Z) - Project-Probe-Aggregate: Efficient Fine-Tuning for Group Robustness [61.45587642780908]
画像テキスト基礎モデルのパラメータ効率向上のための3段階のアプローチを提案する。
本手法は, マイノリティ標本同定とロバストトレーニングアルゴリズムの2つの重要な要素を改良する。
我々の理論分析は,PPAが少数群の識別を向上し,バランスの取れたグループエラーを最小限に抑えるためにベイズが最適であることを示している。
論文 参考訳(メタデータ) (2025-03-12T15:46:12Z) - Responsible AI in NLP: GUS-Net Span-Level Bias Detection Dataset and Benchmark for Generalizations, Unfairness, and Stereotypes [6.30817290125825]
本稿では、GUSデータセットとマルチラベルトークンレベル検出器を組み合わせたGUS-Net Frameworkを紹介し、社会バイアスのスパンレベル分析を行う。
GUSデータセットには、複数のドメインにまたがる3,739のユニークなスニペットが含まれ、69,000以上のトークンレベルのアノテーションが含まれている。
マルチラベルトークンレベルの分類としてバイアス検出を定式化し,エンコーダベースモデルとデコーダベース大規模言語モデルの両方をベンチマークする。
論文 参考訳(メタデータ) (2024-10-10T21:51:22Z) - Revisiting Domain-Adaptive 3D Object Detection by Reliable, Diverse and
Class-balanced Pseudo-Labeling [38.07637524378327]
ドメイン適応型3Dオブジェクト検出において,疑似ラベリング技術を用いた教師なしドメイン適応(DA)が重要なアプローチとして浮上している。
既存のDAメソッドは、マルチクラスのトレーニング環境に適用した場合、パフォーマンスが大幅に低下する。
本稿では,すべてのクラスを一度に検出する学習に適した新しいReDBフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-16T04:34:11Z) - A Multi-level Supervised Contrastive Learning Framework for Low-Resource
Natural Language Inference [54.678516076366506]
自然言語推論(NLI)は、自然言語理解において、ますます重要な課題である。
本稿では,低リソースな自然言語推論のためのマルチSCLという,マルチレベルの教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-31T05:54:18Z) - PLM: Partial Label Masking for Imbalanced Multi-label Classification [59.68444804243782]
長いラベルの分布を持つ実世界のデータセットで訓練されたニューラルネットワークは、頻繁なクラスに偏りがあり、頻繁なクラスでは不十分である。
本稿では,この比率を利用したPLM(Partial Label Masking)を提案する。
本手法は,マルチラベル (MultiMNIST と MSCOCO) とシングルラベル (CIFAR-10 と CIFAR-100) の2つの画像分類データセットにおいて,既存の手法と比較して高い性能を実現する。
論文 参考訳(メタデータ) (2021-05-22T18:07:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。