論文の概要: Multi-Agent VLMs Guided Self-Training with PNU Loss for Low-Resource Offensive Content Detection
- arxiv url: http://arxiv.org/abs/2511.13759v1
- Date: Fri, 14 Nov 2025 08:03:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.686815
- Title: Multi-Agent VLMs Guided Self-Training with PNU Loss for Low-Resource Offensive Content Detection
- Title(参考訳): PNU損失を考慮したマルチエージェントVLMによる低出力攻撃性コンテンツ検出
- Authors: Han Wang, Deyi Ji, Junyu Lu, Lanyun Zhu, Hailong Zhang, Haiyang Wu, Liqun Liu, Peng Shu, Roy Ka-Wei Lee,
- Abstract要約: 協調的な擬似ラベリングにより、豊富な未ラベルデータを活用する自己学習フレームワークを提案する。
提案手法は,マルチエージェント・ビジョン・ランゲージ・モデルのサポートにより,未ラベルのインスタンスに擬似ラベルを反復的に割り当てる。
ベンチマークデータセットの実験は、我々のフレームワークが限られた監督下でベースラインを大幅に上回っていることを示している。
- 参考スコア(独自算出の注目度): 32.68131638705225
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Accurate detection of offensive content on social media demands high-quality labeled data; however, such data is often scarce due to the low prevalence of offensive instances and the high cost of manual annotation. To address this low-resource challenge, we propose a self-training framework that leverages abundant unlabeled data through collaborative pseudo-labeling. Starting with a lightweight classifier trained on limited labeled data, our method iteratively assigns pseudo-labels to unlabeled instances with the support of Multi-Agent Vision-Language Models (MA-VLMs). Un-labeled data on which the classifier and MA-VLMs agree are designated as the Agreed-Unknown set, while conflicting samples form the Disagreed-Unknown set. To enhance label reliability, MA-VLMs simulate dual perspectives, moderator and user, capturing both regulatory and subjective viewpoints. The classifier is optimized using a novel Positive-Negative-Unlabeled (PNU) loss, which jointly exploits labeled, Agreed-Unknown, and Disagreed-Unknown data while mitigating pseudo-label noise. Experiments on benchmark datasets demonstrate that our framework substantially outperforms baselines under limited supervision and approaches the performance of large-scale models
- Abstract(参考訳): ソーシャルメディア上での攻撃内容の正確な検出には、高品質なラベル付きデータが必要であるが、攻撃事例の頻度が低く、手動アノテーションのコストが高いため、このようなデータは少ないことが多い。
この低リソースな課題に対処するために、我々は、協調的な擬似ラベル付けにより、豊富なラベル付きデータを活用する自己学習フレームワークを提案する。
限られたラベル付きデータに基づいて訓練された軽量な分類器から始め,MA-VLM(Multi-Agent Vision-Language Models)をサポートした未ラベルのインスタンスに擬似ラベルを反復的に割り当てる手法を提案する。
分類器とMA-VLMが一致するラベルのないデータはAgreed-Unknown集合として指定され、矛盾するサンプルはDisagreed-Unknown集合を形成する。
ラベル信頼性を高めるため、MA-VLMは2つの視点、モデレーターとユーザをシミュレートし、規制的視点と主観的視点の両方をキャプチャする。
分類器は、擬似ラベルノイズを緩和しながらラベル付き、Agreed-Unknown、Disagreed-Unknownデータを共同で活用する、新しい正負負ラベル付き(PNU)損失を用いて最適化される。
ベンチマークデータセットの実験により、我々のフレームワークは限られた監督下でベースラインを大幅に上回り、大規模モデルの性能にアプローチすることを示した。
関連論文リスト
- ConformalSAM: Unlocking the Potential of Foundational Segmentation Models in Semi-Supervised Semantic Segmentation with Conformal Prediction [57.930531826380836]
本研究は,未ラベル画像のアノテータとして画素レベルの視覚課題におけるラベル不足に,基礎的セグメンテーションモデルが対処できるかどうかを考察する。
ConformalSAMは,まず対象ドメインのラベル付きデータを用いて基礎モデルを校正し,ラベルなしデータの信頼できないピクセルラベルをフィルタリングする新しいSSSSフレームワークである。
論文 参考訳(メタデータ) (2025-07-21T17:02:57Z) - Are LLMs Better than Reported? Detecting Label Errors and Mitigating Their Effect on Model Performance [28.524573212179124]
大きな言語モデル(LLM)は、アノテーションプロセスを強化する新しい機会を提供する。
合意、ラベルの品質、効率の観点から、専門家、クラウドソース、LLMベースのアノテーションを比較します。
以上の結果から,ラベルエラーがかなり多く,修正された場合,報告されたモデル性能が大幅に上向きに変化することが判明した。
論文 参考訳(メタデータ) (2024-10-24T16:27:03Z) - Dual-Decoupling Learning and Metric-Adaptive Thresholding for Semi-Supervised Multi-Label Learning [81.83013974171364]
半教師付きマルチラベル学習(SSMLL)は、正確なマルチラベルアノテーションを収集するコストを削減するために、ラベルのないデータを活用する強力なフレームワークである。
半教師付き学習とは異なり、インスタンスに含まれる複数のセマンティクスのため、SSMLLの擬似ラベルとして最も確率の高いラベルを選択することはできない。
本稿では,高品質な擬似ラベルを生成するための二重パースペクティブ手法を提案する。
論文 参考訳(メタデータ) (2024-07-26T09:33:53Z) - Soft Curriculum for Learning Conditional GANs with Noisy-Labeled and
Uncurated Unlabeled Data [70.25049762295193]
本稿では,トレーニング中にノイズラベル付きおよび未処理データを受け入れる条件付き画像生成フレームワークを提案する。
本稿では,ラベルのないデータに新たなラベルを割り当てながら,逆行訓練にインスタンスワイドを割り当てるソフトカリキュラム学習を提案する。
実験により,本手法は,定量および定性性能の両面において,既存の半教師付き・ラベル付きロバストな手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-17T08:31:59Z) - SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised
Learning [101.86916775218403]
本稿では, サンプル重み付けを統一した定式化により, 一般的な擬似ラベル法を再検討する。
トレーニング中の擬似ラベルの量と質を両立させることでトレードオフを克服するSoftMatchを提案する。
実験では、画像、テキスト、不均衡な分類など、さまざまなベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-26T03:53:25Z) - Exploiting Sample Uncertainty for Domain Adaptive Person
Re-Identification [137.9939571408506]
各サンプルに割り当てられた擬似ラベルの信頼性を推定・活用し,ノイズラベルの影響を緩和する。
不確実性に基づく最適化は大幅な改善をもたらし、ベンチマークデータセットにおける最先端のパフォーマンスを達成します。
論文 参考訳(メタデータ) (2020-12-16T04:09:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。