論文の概要: Towards Patronizing and Condescending Language in Chinese Videos: A Multimodal Dataset and Detector
- arxiv url: http://arxiv.org/abs/2409.05005v2
- Date: Tue, 10 Sep 2024 02:50:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 12:03:11.233171
- Title: Towards Patronizing and Condescending Language in Chinese Videos: A Multimodal Dataset and Detector
- Title(参考訳): 中国語ビデオにおけるパロライズとコンデデント言語:マルチモーダルデータセットと検出器
- Authors: Hongbo Wang, Junyu Lu, Yan Han, Kai Ma, Liang Yang, Hongfei Lin,
- Abstract要約: Patronizing and Condescending Language (PCL)は、脆弱なグループをターゲットにした差別的有害なスピーチの一種である。
本稿では,Bilibiliによる715の注釈付きビデオからなるPCLのための中国初のマルチモーダルデータセットについて紹介する。
また,PCL認識のための表情検出モジュールを備えたマルチPCL検出器を提案する。
- 参考スコア(独自算出の注目度): 20.727790982395444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Patronizing and Condescending Language (PCL) is a form of discriminatory toxic speech targeting vulnerable groups, threatening both online and offline safety. While toxic speech research has mainly focused on overt toxicity, such as hate speech, microaggressions in the form of PCL remain underexplored. Additionally, dominant groups' discriminatory facial expressions and attitudes toward vulnerable communities can be more impactful than verbal cues, yet these frame features are often overlooked. In this paper, we introduce the PCLMM dataset, the first Chinese multimodal dataset for PCL, consisting of 715 annotated videos from Bilibili, with high-quality PCL facial frame spans. We also propose the MultiPCL detector, featuring a facial expression detection module for PCL recognition, demonstrating the effectiveness of modality complementarity in this challenging task. Our work makes an important contribution to advancing microaggression detection within the domain of toxic speech.
- Abstract(参考訳): Patronizing and Condescending Language (PCL)は、脆弱なグループをターゲットにした差別的な有害なスピーチの一種であり、オンラインとオフラインの両方の安全性を脅かす。
有害な音声研究は主にヘイトスピーチのような過剰な毒性に焦点を当てているが、PCLの形でのマイクロアグレッションは未解明のままである。
さらに、支配的な集団の差別的な表情と脆弱なコミュニティに対する態度は、口頭で考えるよりも影響が大きいが、これらのフレームの特徴は見過ごされがちである。
本稿では,Blibili の 715 の注釈付きビデオと高品質な PCL 顔フレームからなる PCLMM データセットを紹介する。
また,PCL認識のための表情検出モジュールを備えたMultiPCL検出器を提案する。
本研究は, 有害音声領域における微小加速度検出の進展に重要な貢献をしている。
関連論文リスト
- PclGPT: A Large Language Model for Patronizing and Condescending Language Detection [18.516811093478054]
Patronizing and condescending Language(PCL)は、脆弱なグループに向けられた音声の一種である。
従来の訓練済み言語モデル(PLM)は、偽善や偽共感のような暗黙的な毒性特性のためにPCLの検出に不適である。
大規模言語モデル(LLMs)の台頭により、我々は彼らの豊かな感情的意味論を利用して暗黙の毒性を探求するパラダイムを確立することができる。
論文 参考訳(メタデータ) (2024-10-01T03:19:13Z) - Against All Odds: Overcoming Typology, Script, and Language Confusion in Multilingual Embedding Inversion Attacks [3.2297018268473665]
大規模言語モデル(LLM)は、敵、バックドア、侵入攻撃などの侵入を通じて、サイバー攻撃者による悪意ある影響を受けやすい。
本研究では,20言語にまたがる言語間およびクロススクリプト・インバージョン・インバージョン・アタックの文脈における多言語LDMの安全性について検討する。
アラビア文字とキリル文字で書かれた言語は、インド・アーリア語族の言語と同様に、特にインバージョンに弱いことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T16:16:34Z) - Towards Probing Speech-Specific Risks in Large Multimodal Models: A Taxonomy, Benchmark, and Insights [50.89022445197919]
本研究は,8つのリスクカテゴリーを敵意(悪意的皮肉と脅し),悪意的模倣(年齢,性別,民族),ステレオタイプ的バイアス(年齢,性別,民族)を対象とする音声特異的リスク分類法を提案する。
分類に基づいて,これらのリスクのカテゴリを検出するために,現在のLMM能力を評価するための小規模データセットを作成する。
論文 参考訳(メタデータ) (2024-06-25T10:08:45Z) - TuBA: Cross-Lingual Transferability of Backdoor Attacks in LLMs with Instruction Tuning [63.481446315733145]
多言語大言語モデル(LLM)に対する言語間バックドア攻撃は未調査である。
本研究は, 教育指導データが有毒でない言語に対して, 教育指導データの有毒化がアウトプットに与える影響について検討した。
本手法は,mT5 や GPT-4o などのモデルにおいて,高い攻撃成功率を示し,12言語中7言語以上で90%以上を突破した。
論文 参考訳(メタデータ) (2024-04-30T14:43:57Z) - Text Embedding Inversion Security for Multilingual Language Models [2.790855523145802]
研究は、基礎となるモデルに関する知識がなくても、埋め込みからテキストを再構築できることを示している。
本研究は,単言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語
論文 参考訳(メタデータ) (2024-01-22T18:34:42Z) - Defending Pre-trained Language Models as Few-shot Learners against
Backdoor Attacks [72.03945355787776]
軽快でプラガブルで効果的な PLM 防御である MDP を,少人数の学習者として提唱する。
我々は,MDPが攻撃の有効性と回避性の両方を選択できる興味深いジレンマを発生させることを解析的に示す。
論文 参考訳(メタデータ) (2023-09-23T04:41:55Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z) - Model-Agnostic Meta-Learning for Multilingual Hate Speech Detection [23.97444551607624]
ソーシャルメディアにおけるヘイトスピーチは増加傾向にあり、そのような有害なコンテンツを検出することが大きな牽引力となっている。
HateMAMLはモデルに依存しないメタ学習ベースのフレームワークで、低リソース言語でのヘイトスピーチ検出を効果的に行う。
大規模な実験は、8つの異なる低リソース言語にわたる5つのデータセットで実施されている。
論文 参考訳(メタデータ) (2023-03-04T22:28:29Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Membership Inference Attacks Against Self-supervised Speech Models [62.73937175625953]
連続音声における自己教師付き学習(SSL)が注目されている。
ブラックボックスアクセス下でのMIA(Commanship Inference Attacks)を用いたSSL音声モデルに対する最初のプライバシ分析を行う。
論文 参考訳(メタデータ) (2021-11-09T13:00:24Z) - Toxic Language Detection in Social Media for Brazilian Portuguese: New
Dataset and Multilingual Analysis [4.251937086394346]
最先端のBERTモデルでは,バイナリケースのモノリンガルデータを用いて76%のマクロF1スコアを達成できた。
より正確なモデルを作成するためには,大規模なモノリンガルデータが依然として必要であることを示す。
論文 参考訳(メタデータ) (2020-10-09T13:05:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。