論文の概要: ICM-Assistant: Instruction-tuning Multimodal Large Language Models for Rule-based Explainable Image Content Moderation
- arxiv url: http://arxiv.org/abs/2412.18216v2
- Date: Mon, 20 Jan 2025 06:04:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:18:12.457591
- Title: ICM-Assistant: Instruction-tuning Multimodal Large Language Models for Rule-based Explainable Image Content Moderation
- Title(参考訳): ICM-Assistant:ルールベース説明可能な画像コンテンツモデレーションのためのインストラクションチューニング型マルチモーダル大言語モデル
- Authors: Mengyang Wu, Yuzhi Zhao, Jialun Cao, Mingjie Xu, Zhongming Jiang, Xuehui Wang, Qinbin Li, Guangneng Hu, Shengchao Qin, Chi-Wing Fu,
- Abstract要約: 従来の画像コンテンツモデレーション(ICM)モデルは、様々な標準に対して正確なモデレーション決定を下すには不十分である。
我々は、簡潔な人間定義ルールを分解する新しいルールベースのデータセット生成パイプラインを設計する。
我々はルールベースのIMMのフレームワークでIMM-Assistantモデルを作成し、実際の実践で容易に適用できるようにします。
- 参考スコア(独自算出の注目度): 48.1894038905491
- License:
- Abstract: Controversial contents largely inundate the Internet, infringing various cultural norms and child protection standards. Traditional Image Content Moderation (ICM) models fall short in producing precise moderation decisions for diverse standards, while recent multimodal large language models (MLLMs), when adopted to general rule-based ICM, often produce classification and explanation results that are inconsistent with human moderators. Aiming at flexible, explainable, and accurate ICM, we design a novel rule-based dataset generation pipeline, decomposing concise human-defined rules and leveraging well-designed multi-stage prompts to enrich short explicit image annotations. Our ICM-Instruct dataset includes detailed moderation explanation and moderation Q-A pairs. Built upon it, we create our ICM-Assistant model in the framework of rule-based ICM, making it readily applicable in real practice. Our ICM-Assistant model demonstrates exceptional performance and flexibility. Specifically, it significantly outperforms existing approaches on various sources, improving both the moderation classification (36.8% on average) and moderation explanation quality (26.6% on average) consistently over existing MLLMs. Code/Data is available at https://github.com/zhaoyuzhi/ICM-Assistant.
- Abstract(参考訳): 論争の内容はインターネットに大きく浸透し、様々な文化的規範や児童保護基準を侵害している。
従来の画像コンテンツモデレーション(ICM)モデルは、様々な標準に対して正確なモデレーション決定を下すには不十分であるが、近年のマルチモーダル・大規模言語モデル(MLLM)は、一般的なルールベースのICMに採用されている場合、しばしば人間のモデレーターと矛盾する分類と説明結果を生成する。
フレキシブルで説明可能で正確なIMMを目指して、我々は新しいルールベースのデータセット生成パイプラインを設計し、簡潔な人間定義のルールを分解し、よく設計されたマルチステージプロンプトを活用して、短い明示的な画像アノテーションを豊かにする。
ICM-Instructデータセットには、詳細なモデレーション説明とモデレーションQ-Aペアが含まれている。
その基盤として、ルールベースのIMMのフレームワークでIMM-Assistantモデルを作成し、実際に容易に適用できるようにします。
ICM-Assistantモデルは、優れたパフォーマンスと柔軟性を示します。
具体的には、様々なソースにおいて既存のアプローチを著しく上回り、既存のMLLMよりもモデレーション分類(平均36.8%)とモデレーション説明品質(平均26.6%)の両方を一貫して改善している。
Code/Dataはhttps://github.com/zhaoyuzhi/ICM-Assistant.comから入手できる。
関連論文リスト
- Classifier-guided Gradient Modulation for Enhanced Multimodal Learning [50.7008456698935]
Gradient-Guided Modulation (CGGM) は,マルチモーダル学習と勾配のバランスをとる新しい手法である。
UPMC-Food 101, CMU-MOSI, IEMOCAP, BraTSの4つのマルチモーダルデータセットについて広範な実験を行った。
CGGMはすべてのベースラインや最先端のメソッドを一貫して上回る。
論文 参考訳(メタデータ) (2024-11-03T02:38:43Z) - Multimodal CLIP Inference for Meta-Few-Shot Image Classification [0.0]
CLIPのようなマルチモーダル基盤モデルは、ジョイント(イメージ、テキスト)埋め込みを学ぶ。
本研究では、CLIPのテキストと画像エンコーダのモダリティを組み合わせることで、広く採用されているベンチマークにおいて、最先端のメタファ学習者より優れていることを示す。
論文 参考訳(メタデータ) (2024-03-26T17:47:54Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - CCM: Adding Conditional Controls to Text-to-Image Consistency Models [89.75377958996305]
本稿では,Consistency Models に ControlNet のような条件制御を追加するための代替戦略を検討する。
軽量アダプタは、一貫性トレーニングを通じて、複数の条件下で共同で最適化することができる。
これらの3つの解は, エッジ, 奥行き, 人間のポーズ, 低解像度画像, マスキング画像など, 様々な条件制御にまたがる。
論文 参考訳(メタデータ) (2023-12-12T04:16:03Z) - Adapting Large Language Models for Content Moderation: Pitfalls in Data
Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。
本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文 参考訳(メタデータ) (2023-10-05T09:09:44Z) - Rethinking Multimodal Content Moderation from an Asymmetric Angle with
Mixed-modality [14.594707272134414]
ソーシャルメディア上でのマルチモーダルコンテンツモデレーション(CM)の必要性は急速に高まっている。
既存のユニモーダルCMシステムは、モダリティを越える有害な内容の取得に失敗する可能性がある。
マルチモーダルおよび非モーダルCMタスクを対象とする新しいCMモデルである非対称混合モードモデレーション(AM3)を提案する。
論文 参考訳(メタデータ) (2023-05-17T20:06:29Z) - Knowledge Perceived Multi-modal Pretraining in E-commerce [12.012793707741562]
画像とテキストのモダリティに対する現在のマルチモーダル事前学習法は、モダリティの欠如やモダリティノイズに直面して頑健さを欠いている。
我々は,マルチモーダル事前学習における知識モダリティを導入し,ノイズを補正し,画像とテキストのモダリティの欠如を補うK3Mを提案する。
論文 参考訳(メタデータ) (2021-08-20T08:01:28Z) - Linguistic Structure Guided Context Modeling for Referring Image
Segmentation [61.701577239317785]
本稿では,マルチモーダルコンテキストを相互モーダル相互作用によりモデル化する「ガザ・プロパゲート・ディストリビュート」方式を提案する。
我々のLSCMモジュールは依存パーシングツリーワードグラフ(DPT-WG)を構築し、文の有効なマルチモーダルコンテキストを含むようにすべての単語を誘導する。
論文 参考訳(メタデータ) (2020-10-01T16:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。