論文の概要: CPCLDETECTOR: Knowledge Enhancement and Alignment Selection for Chinese Patronizing and Condescending Language Detection
- arxiv url: http://arxiv.org/abs/2509.18562v2
- Date: Wed, 24 Sep 2025 03:29:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 11:55:19.84404
- Title: CPCLDETECTOR: Knowledge Enhancement and Alignment Selection for Chinese Patronizing and Condescending Language Detection
- Title(参考訳): CPCLDETECTOR:中国語愛国語検出のための知識向上とアライメント選択
- Authors: Jiaxun Yang, Yifei Han, Long Zhang, Yujie Liu, Bin Li, Bo Gao, Yangfan He, Kejia Zhan,
- Abstract要約: 中国語愛国語(英語: Chinese Patronizing and Condescending Language、CPLC)は、中国のビデオプラットフォーム上で脆弱なグループをターゲットにした、暗黙の差別的な有毒なスピーチである。
既存のデータセットには、ビデオコンテンツを直接反映するユーザコメントがない。
本研究は,103kのコメントエントリを含む新しいデータセットPCLMMPLUSを再構成し,データセットサイズを拡大する。
- 参考スコア(独自算出の注目度): 15.06576880736739
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chinese Patronizing and Condescending Language (CPCL) is an implicitly discriminatory toxic speech targeting vulnerable groups on Chinese video platforms. The existing dataset lacks user comments, which are a direct reflection of video content. This undermines the model's understanding of video content and results in the failure to detect some CPLC videos. To make up for this loss, this research reconstructs a new dataset PCLMMPLUS that includes 103k comment entries and expands the dataset size. We also propose the CPCLDetector model with alignment selection and knowledge-enhanced comment content modules. Extensive experiments show the proposed CPCLDetector outperforms the SOTA on PCLMM and achieves higher performance on PCLMMPLUS . CPLC videos are detected more accurately, supporting content governance and protecting vulnerable groups. Code and dataset are available at https://github.com/jiaxunyang256/PCLD.
- Abstract(参考訳): 中国語愛国語(英語: Chinese Patronizing and Condescending Language、CPCL)は、中国のビデオプラットフォーム上で脆弱なグループをターゲットにした、暗黙の差別的な有毒なスピーチである。
既存のデータセットには、ビデオコンテンツを直接反映するユーザコメントがない。
これにより、モデルがビデオの内容を理解するのを妨げ、CPLCビデオの発見に失敗する。
この損失を補うために、この研究は103kのコメントエントリを含む新しいデータセットPCLMMPLUSを再構築し、データセットサイズを拡大する。
また、アライメント選択と知識強化されたコメントコンテンツモジュールを用いたCPCLDetectorモデルを提案する。
CPCLDetector は PCLMM 上で SOTA より優れ,PCLMMPLUS 上で高い性能を実現する。
CPLCビデオはより正確に検出され、コンテンツガバナンスをサポートし、脆弱なグループを保護する。
コードとデータセットはhttps://github.com/jiaxunyang256/PCLDで公開されている。
関連論文リスト
- ViSIL: Unified Evaluation of Information Loss in Multimodal Video Captioning [23.144642468756032]
Video Summary Information Loss (ViSIL) スコアは、視覚言語モデル(VLM)推論モデルを用いて、要約によって取得されていない映像情報を定量化する情報理論フレームワークである。
以上の結果から,VSILスコアは映像質問応答タスクにおける人間とVLMのパフォーマンスと統計的に有意な相関を示した。
論文 参考訳(メタデータ) (2026-01-14T20:14:47Z) - ChineseHarm-Bench: A Chinese Harmful Content Detection Benchmark [50.89916747049978]
有害なコンテンツ検出のための既存のリソースは、主に英語に重点を置いており、中国のデータセットは乏しく、スコープは限られている。
我々は,6つの代表的なカテゴリを網羅し,実世界のデータから構築した,中国のコンテンツ害検知のための包括的,専門的な注釈付きベンチマークを提案する。
本研究では,人間の注釈付き知識規則と大規模言語モデルからの暗黙的知識を統合した知識強化ベースラインを提案する。
論文 参考訳(メタデータ) (2025-06-12T17:57:05Z) - Evaluating AI capabilities in detecting conspiracy theories on YouTube [0.1474723404975345]
本研究では,オープンウェイトなLarge Language Models (LLMs) のテキストのみとマルチモーダルの両方を用いて,YouTube上での陰謀論のビデオの識別を行う。
我々は、ゼロショット設定で様々なLLMを評価し、その性能を微調整されたRoBERTaベースラインと比較した。
その結果,テキストベースのLLMは高いリコール精度,低い精度を実現し,偽陽性が増大した。
マルチモーダルモデルはテキストのみのモデルよりも遅れており、ビジュアルデータ統合のメリットが限定されている。
論文 参考訳(メタデータ) (2025-05-29T15:44:36Z) - VistaDPO: Video Hierarchical Spatial-Temporal Direct Preference Optimization for Large Video Models [80.92928946973026]
ビデオ階層型空間-時間的直接参照最適化のためのフレームワークであるVistaDPOを紹介する。
VistaDPOは3つの階層レベルにまたがってテキストとビデオの好みのアライメントを強化する。
Video Hallucination、Video QA、Captioningパフォーマンスタスクなどのベンチマークの実験では、VistaDPOが既存のLVMのパフォーマンスを大幅に改善していることが示されている。
論文 参考訳(メタデータ) (2025-04-17T17:39:41Z) - MVTamperBench: Evaluating Robustness of Vision-Language Models [5.062181035021214]
textbfMVTamperBenchは、MLLMの強靭性を5つの一般的なタンパリング手法に対して体系的に評価するベンチマークである。
MVTamperBenchは3.4Kのオリジナルビデオで構成され、19の異なるビデオ操作タスクをカバーする17K以上のタンパー付きクリップに拡張されている。
論文 参考訳(メタデータ) (2024-12-27T18:47:05Z) - CLIPVQA:Video Quality Assessment via CLIP [56.94085651315878]
VQA問題(CLIPVQA)に対する効率的なCLIPベースのトランスフォーマー手法を提案する。
提案したCLIPVQAは、新しい最先端のVQAパフォーマンスを実現し、既存のベンチマークVQAメソッドよりも最大で37%の汎用性を実現している。
論文 参考訳(メタデータ) (2024-07-06T02:32:28Z) - Video Understanding with Large Language Models: A Survey [107.7736911322462]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。
Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。
本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文 参考訳(メタデータ) (2023-12-29T01:56:17Z) - Label Words are Anchors: An Information Flow Perspective for
Understanding In-Context Learning [77.7070536959126]
大規模言語モデル(LLM)の有望な能力としてインコンテキスト学習(ICL)が出現する
本稿では,情報フローレンズを用いたICLの動作機構について検討する。
本稿では,ICL性能向上のためのアンカー再重み付け手法,推論の高速化のための実演圧縮手法,GPT2-XLにおけるICLエラーの診断のための解析フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T15:26:20Z) - CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language
Representation Alignment [146.3128011522151]
本稿では,CLIP,すなわちCLIP-ViPに基づいて,ビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。
提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。
MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
論文 参考訳(メタデータ) (2022-09-14T05:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。