論文の概要: CPCLDETECTOR: Knowledge Enhancement and Alignment Selection for Chinese Patronizing and Condescending Language Detection
- arxiv url: http://arxiv.org/abs/2509.18562v2
- Date: Wed, 24 Sep 2025 03:29:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 11:55:19.84404
- Title: CPCLDETECTOR: Knowledge Enhancement and Alignment Selection for Chinese Patronizing and Condescending Language Detection
- Title(参考訳): CPCLDETECTOR:中国語愛国語検出のための知識向上とアライメント選択
- Authors: Jiaxun Yang, Yifei Han, Long Zhang, Yujie Liu, Bin Li, Bo Gao, Yangfan He, Kejia Zhan,
- Abstract要約: 中国語愛国語(英語: Chinese Patronizing and Condescending Language、CPLC)は、中国のビデオプラットフォーム上で脆弱なグループをターゲットにした、暗黙の差別的な有毒なスピーチである。
既存のデータセットには、ビデオコンテンツを直接反映するユーザコメントがない。
本研究は,103kのコメントエントリを含む新しいデータセットPCLMMPLUSを再構成し,データセットサイズを拡大する。
- 参考スコア(独自算出の注目度): 15.06576880736739
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chinese Patronizing and Condescending Language (CPCL) is an implicitly discriminatory toxic speech targeting vulnerable groups on Chinese video platforms. The existing dataset lacks user comments, which are a direct reflection of video content. This undermines the model's understanding of video content and results in the failure to detect some CPLC videos. To make up for this loss, this research reconstructs a new dataset PCLMMPLUS that includes 103k comment entries and expands the dataset size. We also propose the CPCLDetector model with alignment selection and knowledge-enhanced comment content modules. Extensive experiments show the proposed CPCLDetector outperforms the SOTA on PCLMM and achieves higher performance on PCLMMPLUS . CPLC videos are detected more accurately, supporting content governance and protecting vulnerable groups. Code and dataset are available at https://github.com/jiaxunyang256/PCLD.
- Abstract(参考訳): 中国語愛国語(英語: Chinese Patronizing and Condescending Language、CPCL)は、中国のビデオプラットフォーム上で脆弱なグループをターゲットにした、暗黙の差別的な有毒なスピーチである。
既存のデータセットには、ビデオコンテンツを直接反映するユーザコメントがない。
これにより、モデルがビデオの内容を理解するのを妨げ、CPLCビデオの発見に失敗する。
この損失を補うために、この研究は103kのコメントエントリを含む新しいデータセットPCLMMPLUSを再構築し、データセットサイズを拡大する。
また、アライメント選択と知識強化されたコメントコンテンツモジュールを用いたCPCLDetectorモデルを提案する。
CPCLDetector は PCLMM 上で SOTA より優れ,PCLMMPLUS 上で高い性能を実現する。
CPLCビデオはより正確に検出され、コンテンツガバナンスをサポートし、脆弱なグループを保護する。
コードとデータセットはhttps://github.com/jiaxunyang256/PCLDで公開されている。
関連論文リスト
- ChineseHarm-Bench: A Chinese Harmful Content Detection Benchmark [50.89916747049978]
有害なコンテンツ検出のための既存のリソースは、主に英語に重点を置いており、中国のデータセットは乏しく、スコープは限られている。
我々は,6つの代表的なカテゴリを網羅し,実世界のデータから構築した,中国のコンテンツ害検知のための包括的,専門的な注釈付きベンチマークを提案する。
本研究では,人間の注釈付き知識規則と大規模言語モデルからの暗黙的知識を統合した知識強化ベースラインを提案する。
論文 参考訳(メタデータ) (2025-06-12T17:57:05Z) - Evaluating AI capabilities in detecting conspiracy theories on YouTube [0.1474723404975345]
本研究では,オープンウェイトなLarge Language Models (LLMs) のテキストのみとマルチモーダルの両方を用いて,YouTube上での陰謀論のビデオの識別を行う。
我々は、ゼロショット設定で様々なLLMを評価し、その性能を微調整されたRoBERTaベースラインと比較した。
その結果,テキストベースのLLMは高いリコール精度,低い精度を実現し,偽陽性が増大した。
マルチモーダルモデルはテキストのみのモデルよりも遅れており、ビジュアルデータ統合のメリットが限定されている。
論文 参考訳(メタデータ) (2025-05-29T15:44:36Z) - Label Words are Anchors: An Information Flow Perspective for
Understanding In-Context Learning [77.7070536959126]
大規模言語モデル(LLM)の有望な能力としてインコンテキスト学習(ICL)が出現する
本稿では,情報フローレンズを用いたICLの動作機構について検討する。
本稿では,ICL性能向上のためのアンカー再重み付け手法,推論の高速化のための実演圧縮手法,GPT2-XLにおけるICLエラーの診断のための解析フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T15:26:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。