論文の概要: PromptGuard at BLP-2025 Task 1: A Few-Shot Classification Framework Using Majority Voting and Keyword Similarity for Bengali Hate Speech Detection
- arxiv url: http://arxiv.org/abs/2510.09771v1
- Date: Fri, 10 Oct 2025 18:30:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.61691
- Title: PromptGuard at BLP-2025 Task 1: A Few-Shot Classification Framework Using Majority Voting and Keyword Similarity for Bengali Hate Speech Detection
- Title(参考訳): BLP-2025 Task 1 における PromptGuard:ベンガルヘイト音声検出のための多数投票とキーワード類似性を利用したわずかなショット分類フレームワーク
- Authors: Rakib Hossan, Shubhashis Roy Dipta,
- Abstract要約: BLP-2025タスク1Aはベンガルのヘイトスピーチを6つのカテゴリーに分類する必要がある。
従来の教師付きアプローチでは、低リソース言語には高価なラベル付きデータセットが必要である。
PromptGuardを開発した。これは,キーワード抽出のためのカイ二乗統計解析と,意思決定のための適応的過半数投票を組み合わせたフレームワークである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The BLP-2025 Task 1A requires Bengali hate speech classification into six categories. Traditional supervised approaches need extensive labeled datasets that are expensive for low-resource languages. We developed PromptGuard, a few-shot framework combining chi-square statistical analysis for keyword extraction with adaptive majority voting for decision-making. We explore statistical keyword selection versus random approaches and adaptive voting mechanisms that extend classification based on consensus quality. Chi-square keywords provide consistent improvements across categories, while adaptive voting benefits ambiguous cases requiring extended classification rounds. PromptGuard achieves a micro-F1 of 67.61, outperforming n-gram baselines (60.75) and random approaches (14.65). Ablation studies confirm chi-square-based keywords show the most consistent impact across all categories.
- Abstract(参考訳): BLP-2025タスク1Aはベンガルのヘイトスピーチを6つのカテゴリーに分類する必要がある。
従来の教師付きアプローチでは、低リソース言語には高価なラベル付きデータセットが必要である。
PromptGuardを開発した。これは,キーワード抽出のためのカイ二乗統計解析と,意思決定のための適応的過半数投票を組み合わせた数ショットフレームワークである。
統計的キーワード選択とランダムアプローチ、およびコンセンサス品質に基づく分類を拡張する適応投票機構について検討する。
Chi-squareキーワードはカテゴリ間で一貫した改善を提供するが、適応投票の利点は、拡張された分類ラウンドを必要とするあいまいなケースである。
PromptGuard は 67.61 のマイクロ F1 を達成し、n-gram ベースライン (60.75) とランダムアプローチ (14.65) を上回っている。
アブレーション研究は、Chi-square-basedキーワードがすべてのカテゴリで最も一貫した影響を示していることを確認している。
関連論文リスト
- Small sample-based adaptive text classification through iterative and contrastive description refinement [0.0]
大規模言語モデル(LLM)は、進化する知識とあいまいなカテゴリ境界を持つ領域の一般化に苦慮することが多い。
本稿では,反復的トピック洗練,コントラスト的プロンプト,アクティブラーニングを組み合わせた分類フレームワークを提案する。
このフレームワークはHuman-in-the-loopコンポーネントを備えており、自然言語でカテゴリ定義を導入したり、改訂したりすることができる。
論文 参考訳(メタデータ) (2025-08-01T11:12:38Z) - Prompt Tuned Embedding Classification for Multi-Label Industry Sector Allocation [2.024620791810963]
本研究では,マルチラベルテキスト分類のためのPrompt Tuningとベースラインの性能をベンチマークする。
企業を投資会社の独自産業分類に分類するために適用される。
このモデルのパフォーマンスは、よく知られた企業とあまり知られていない企業の両方で一貫していることを確認します。
論文 参考訳(メタデータ) (2023-09-21T13:45:32Z) - Mitigating Word Bias in Zero-shot Prompt-based Classifiers [55.60306377044225]
一致したクラス先行は、オラクルの上界性能と強く相関していることを示す。
また,NLPタスクに対するプロンプト設定において,一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2023-09-10T10:57:41Z) - Automatic Counterfactual Augmentation for Robust Text Classification
Based on Word-Group Search [12.894936637198471]
一般に、ラベルと表面的関連を生じると、キーワードはショートカットと見なされ、結果として誤った予測となる。
キーワードの組み合わせの因果効果を捉え,予測に最も影響を与える組み合わせを注文する,新しいWord-Groupマイニング手法を提案する。
提案手法は,効率的なポストホック解析とビームサーチに基づいて,マイニング効果の確保と複雑さの低減を図っている。
論文 参考訳(メタデータ) (2023-07-01T02:26:34Z) - Probabilistic Back-ends for Online Speaker Recognition and Clustering [31.493856217110356]
本稿では,オンライン話者クラスタリングの課題において自然に発生する多言語話者認識に焦点を当てた。
一般的なコサインスコアは, 校正度が低かったり, 受講者の発話が多様であったりする。
確率線形判別分析(PLDA)の極端に制約されたバージョンに基づくコサインスコアの簡易な置き換えを提案する。
論文 参考訳(メタデータ) (2023-02-19T09:48:26Z) - Anomaly Detection using Ensemble Classification and Evidence Theory [62.997667081978825]
本稿では,アンサンブル分類とエビデンス理論を用いた新しい検出手法を提案する。
固体アンサンブル分類器を構築するためのプール選択戦略が提示される。
我々は異常検出手法の不確実性を利用する。
論文 参考訳(メタデータ) (2022-12-23T00:50:41Z) - CCPrefix: Counterfactual Contrastive Prefix-Tuning for Many-Class
Classification [57.62886091828512]
多クラス分類のための新しいプレフィックスチューニング手法であるCCPrefixを提案する。
基本的に、ラベル空間における実数対から派生したインスタンス依存の軟式接頭辞は、多クラス分類における言語動詞化を補完するために利用される。
論文 参考訳(メタデータ) (2022-11-11T03:45:59Z) - BEIKE NLP at SemEval-2022 Task 4: Prompt-Based Paragraph Classification
for Patronizing and Condescending Language Detection [13.944149742291788]
PCL検出タスクは、メディアの脆弱なコミュニティを保護し、あるいは支持している言語を特定することを目的としている。
本稿では,段落分類における素早い学習の力を活用した解法について紹介する。
論文 参考訳(メタデータ) (2022-08-02T08:38:47Z) - HuBERT: Self-Supervised Speech Representation Learning by Masked
Prediction of Hidden Units [81.53783563025084]
本稿では、BERTのような予測損失に対して、アライメントされたターゲットラベルを提供するオフラインクラスタリングステップを提案する。
提案手法の重要な要素は,マスク領域にのみ予測損失を適用することである。
HuBERTは、より困難なdev-otherおよびtest-other評価サブセットに対して、最大19%と13%の相対的なWER削減を示す。
論文 参考訳(メタデータ) (2021-06-14T14:14:28Z) - MASKER: Masked Keyword Regularization for Reliable Text Classification [73.90326322794803]
文脈に基づく予測を容易にする微調整手法であるマスク付きキーワード正規化(MASKER)を提案する。
maskerはモデルを規則化し、他の単語からキーワードを再構築し、十分な文脈なしに低信頼の予測を行う。
分類精度を低下させることなくOOD検出とクロスドメインの一般化を改善したMASKERを提案する。
論文 参考訳(メタデータ) (2020-12-17T04:54:16Z) - Certified Robustness to Label-Flipping Attacks via Randomized Smoothing [105.91827623768724]
機械学習アルゴリズムは、データ中毒攻撃の影響を受けやすい。
任意の関数に対するランダム化スムージングの統一的なビューを示す。
本稿では,一般的なデータ中毒攻撃に対して,ポイントワイズで確実に堅牢な分類器を構築するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2020-02-07T21:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。