論文の概要: MMBERT: Scaled Mixture-of-Experts Multimodal BERT for Robust Chinese Hate Speech Detection under Cloaking Perturbations
- arxiv url: http://arxiv.org/abs/2508.00760v1
- Date: Fri, 01 Aug 2025 16:34:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.959084
- Title: MMBERT: Scaled Mixture-of-Experts Multimodal BERT for Robust Chinese Hate Speech Detection under Cloaking Perturbations
- Title(参考訳): MMBERT: 閉鎖摂動下でのロバストな中国語Hate音声検出のためのMultimodal BERT
- Authors: Qiyao Xue, Yuchen Dou, Ryan Shi, Xiang Lorraine Li, Wei Gao,
- Abstract要約: 我々は,中国のソーシャルネットワーク上でのヘイトスピーチ検出のための新しいBERTベースのマルチモーダルフレームワークMMBERTを提案する。
MMBERTには、モダリティ固有の専門家、共有自己認識機構、ルータベースのエキスパートアロケーション戦略が組み込まれている。
いくつかの中国のヘイトスピーチデータセットの実証結果は、MMBERTが細調整されたBERTベースのエンコーダモデルを大幅に上回っていることを示している。
- 参考スコア(独自算出の注目度): 4.930109166037718
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hate speech detection on Chinese social networks presents distinct challenges, particularly due to the widespread use of cloaking techniques designed to evade conventional text-based detection systems. Although large language models (LLMs) have recently improved hate speech detection capabilities, the majority of existing work has concentrated on English datasets, with limited attention given to multimodal strategies in the Chinese context. In this study, we propose MMBERT, a novel BERT-based multimodal framework that integrates textual, speech, and visual modalities through a Mixture-of-Experts (MoE) architecture. To address the instability associated with directly integrating MoE into BERT-based models, we develop a progressive three-stage training paradigm. MMBERT incorporates modality-specific experts, a shared self-attention mechanism, and a router-based expert allocation strategy to enhance robustness against adversarial perturbations. Empirical results in several Chinese hate speech datasets show that MMBERT significantly surpasses fine-tuned BERT-based encoder models, fine-tuned LLMs, and LLMs utilizing in-context learning approaches.
- Abstract(参考訳): 中国のソーシャルネットワーク上でのヘイトスピーチ検出は、特に従来のテキストベースの検出システムを避けるために設計されたクローキング技術が広く使われているため、異なる課題を呈している。
大規模言語モデル(LLM)は近年ヘイトスピーチ検出機能を改善しているが、既存の研究の大部分は英語のデータセットに集中しており、中国語の文脈におけるマルチモーダル戦略に限られている。
本研究では,Mixture-of-Experts (MoE)アーキテクチャを用いて,テキスト,音声,視覚的モダリティを統合した新しいBERTベースのマルチモーダルフレームワークMMBERTを提案する。
BERTモデルにMoEを直接統合する際の不安定性に対処するため,我々は進歩的な3段階トレーニングパラダイムを開発した。
MMBERTには、モダリティ固有の専門家、共有自己注意機構、および敵の摂動に対する堅牢性を高めるルータベースのエキスパートアロケーション戦略が組み込まれている。
いくつかの中国のヘイトスピーチデータセットの実証的な結果から、MMBERTは、文脈内学習アプローチを利用した細調整BERTベースのエンコーダモデル、微調整LDM、LLMを大幅に上回っていることが分かる。
関連論文リスト
- MGCR-Net:Multimodal Graph-Conditioned Vision-Language Reconstruction Network for Remote Sensing Change Detection [55.702662643521265]
マルチモーダルデータのセマンティックインタラクション機能を検討するために,マルチモーダルグラフ条件付き視覚言語再構成ネットワーク(MGCR-Net)を提案する。
4つの公開データセットによる実験結果から,MGCRは主流CD法に比べて優れた性能を示した。
論文 参考訳(メタデータ) (2025-08-03T02:50:08Z) - True Multimodal In-Context Learning Needs Attention to the Visual Context [69.63677595066012]
MLLM(Multimodal Large Language Models)は、新しいタスクに適応したMICL(Multimodal In-Context Learning)を実現する。
現在のMLLMは、視覚的手がかりを無視し、テキストパターンを過度に無視する傾向にあり、真のマルチモーダル適応よりも単なるテキスト模倣に繋がる。
視覚的コンテキストへのモデルへの参加を促す,効率的な微調整戦略であるDynamic Attention Reallocation (DARA)を紹介した。
論文 参考訳(メタデータ) (2025-07-21T17:08:18Z) - Rethinking Hate Speech Detection on Social Media: Can LLMs Replace Traditional Models? [3.611706857555358]
現代ソーシャルメディアにおけるヘイトスピーチの検出は、言語的多様性とオンライン談話の非公式な性質により、独特な課題を呈している。
これらの課題は、コードミキシング、翻訳、文化的ニュアンス表現を含む設定でさらに増幅される。
近年の大規模言語モデル (LLM) は, それらを上回るだけでなく, ヘイトスピーチ検出の環境をより広範に再定義している。
論文 参考訳(メタデータ) (2025-06-15T06:48:47Z) - Align is not Enough: Multimodal Universal Jailbreak Attack against Multimodal Large Language Models [83.80177564873094]
マルチモーダル・ユニバーサル・ジェイルブレイク・アタック・フレームワークを提案する。
LLaVA,Yi-VL,MiniGPT4,MiniGPT-v2,InstructBLIPなどのMLLMの望ましくないコンテキスト生成を評価する。
本研究は,MLLMにおける堅牢な安全対策の必要性を浮き彫りにするものである。
論文 参考訳(メタデータ) (2025-06-02T04:33:56Z) - Con Instruction: Universal Jailbreaking of Multimodal Large Language Models via Non-Textual Modalities [76.9327488986162]
既存のマルチモーダル言語モデル(MLLM)に対する攻撃は、主に敵対的な画像を伴うテキストを通して指示を伝える。
我々はMLLMの能力を利用して、非テキスト命令、具体的には、我々の新しい手法であるCon Instructionによって生成された逆画像やオーディオを解釈する。
LLaVA-v1.5 (13B)で81.3%,86.6%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2025-05-31T13:11:14Z) - Detect, Explain, Escalate: Low-Carbon Dialogue Breakdown Management for LLM-Powered Agents [30.13634341221476]
大規模言語モデル(LLM)は、多くのアプリケーションを変えつつありますが、会話のブレークダウンへの感受性は、ユーザ信頼を損なう重要な課題です。
本稿では,低炭素運転を重視したLDMエージェントの対話分解を管理するためのフレームワーク「Detect, Explain, Escalate」を提案する。
論文 参考訳(メタデータ) (2025-04-26T07:51:05Z) - Low-Rank and Sparse Model Merging for Multi-Lingual Speech Recognition and Translation [7.437128866333448]
異なる言語やタスクでトレーニングされたモデルを効率的に統合する新しいテクニックであるLoRS-Mergingを紹介する。
LoRS-Mergingは低ランクとスパースプルーニングを組み合わせることで、冗長なパラメータを排除しながら本質的な構造を維持する。
10言語にわたる実験の結果、LoRS-Mergingは多言語マルチタスクトレーニングよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-02-24T18:06:57Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Applying Pre-trained Multilingual BERT in Embeddings for Improved Malicious Prompt Injection Attacks Detection [5.78117257526028]
大きな言語モデル(LLM)は、その優れた能力と広範囲のアプリケーションに適用できることで有名である。
この研究は、実際のLLMアプリケーションに最も危険な脆弱性の1つである悪意のあるプロンプトインジェクション攻撃の影響に焦点を当てている。
正規のプロンプトから悪意のあるプロンプトを分類するために、多言語BERTやDistilBertのような様々なBERT(Bidirectional Representations from Transformers)を適用する。
論文 参考訳(メタデータ) (2024-09-20T08:48:51Z) - SMILE: Speech Meta In-Context Learning for Low-Resource Language Automatic Speech Recognition [55.2480439325792]
音声メタインコンテキスト学習(SMILE)は、メタラーニングと音声インコンテキスト学習(SICL)を組み合わせた革新的なフレームワークである
SMILEは、トレーニング不要な多言語ASRタスクにおいて、ベースライン手法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2024-09-16T16:04:16Z) - Enhancing Code-Switching Speech Recognition with LID-Based Collaborative Mixture of Experts Model [12.030995417911296]
本研究では,専門家グループ間の協調的なメカニズムを活用するMixture of Experts(MoE)モデルであるCollaborative-MoEを提案する。
各言語専門家グループ内では、ゲーティングネットワークは、言語以外の属性に関するコラボレーションを促進するために教師なしの運営を行っている。
提案手法は,MoEモデルの特徴となる効率的な推論能力を,追加の事前学習を必要とせずに保持する。
論文 参考訳(メタデータ) (2024-09-03T16:53:38Z) - Exploring Multi-Modal Contextual Knowledge for Open-Vocabulary Object
Detection [72.36017150922504]
教師の融合変換器から学生検出器へ学習した文脈知識を伝達するためのマルチモーダルな文脈知識蒸留フレームワーク MMC-Det を提案する。
多様なマルチモーダルマスキング言語モデリングは、従来のマルチモーダルマスキング言語モデリング(MLM)に基づくオブジェクト分散制約により実現される。
論文 参考訳(メタデータ) (2023-08-30T08:33:13Z) - Overcoming Language Disparity in Online Content Classification with
Multimodal Learning [22.73281502531998]
大規模言語モデルは、テキスト検出と分類タスクのための最先端のソリューションを開発するための標準となっている。
高度な計算技術と資源の開発は、英語に不相応に焦点が当てられている。
マルチモーダル機械学習を用いて画像に含まれる情報を統合するという約束を探求する。
論文 参考訳(メタデータ) (2022-05-19T17:56:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。