論文の概要: Leveraging Large-scale Multimedia Datasets to Refine Content Moderation
Models
- arxiv url: http://arxiv.org/abs/2212.00668v1
- Date: Thu, 1 Dec 2022 17:19:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 16:33:17.208828
- Title: Leveraging Large-scale Multimedia Datasets to Refine Content Moderation
Models
- Title(参考訳): 大規模マルチメディアデータセットを活用したコンテンツモデレーションモデル
- Authors: Ioannis Sarridis, Christos Koutlis, Olga Papadopoulou, and Symeon
Papadopoulos
- Abstract要約: 本稿では,大規模マルチメディアデータセットを活用してコンテンツモデレーションモデルを洗練するフレームワークを提案する。
提案手法は,Not Safe for Work (NSFW) を用いて評価し,コンテンツ検出タスクを妨害する。
92.54%のデータがコンテンツが乱れた場合に自動的に注釈付けされるため、これは人間の関与を著しく減少させる。
- 参考スコア(独自算出の注目度): 8.147198294451151
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The sheer volume of online user-generated content has rendered content
moderation technologies essential in order to protect digital platform
audiences from content that may cause anxiety, worry, or concern. Despite the
efforts towards developing automated solutions to tackle this problem, creating
accurate models remains challenging due to the lack of adequate task-specific
training data. The fact that manually annotating such data is a highly
demanding procedure that could severely affect the annotators' emotional
well-being is directly related to the latter limitation. In this paper, we
propose the CM-Refinery framework that leverages large-scale multimedia
datasets to automatically extend initial training datasets with hard examples
that can refine content moderation models, while significantly reducing the
involvement of human annotators. We apply our method on two model adaptation
strategies designed with respect to the different challenges observed while
collecting data, i.e. lack of (i) task-specific negative data or (ii) both
positive and negative data. Additionally, we introduce a diversity criterion
applied to the data collection process that further enhances the generalization
performance of the refined models. The proposed method is evaluated on the Not
Safe for Work (NSFW) and disturbing content detection tasks on benchmark
datasets achieving 1.32% and 1.94% accuracy improvements compared to the state
of the art, respectively. Finally, it significantly reduces human involvement,
as 92.54% of data are automatically annotated in case of disturbing content
while no human intervention is required for the NSFW task.
- Abstract(参考訳): オンラインユーザー生成コンテンツの膨大な量によって、デジタルプラットフォームオーディエンスを不安や不安、懸念を引き起こすコンテンツから守るために、コンテンツモデレーション技術が不可欠になった。
この問題を解決するための自動化ソリューションの開発努力にもかかわらず、適切なタスク固有のトレーニングデータがないため、正確なモデルの作成は依然として困難である。
このようなデータを手動でアノテートすることは、アノテータの感情的幸福に深刻な影響を及ぼすような、非常に要求の多い手順であるという事実は、後者の制限に直接関係している。
本稿では,大規模マルチメディアデータセットを活用したcm-refineryフレームワークを提案し,コンテンツモデレーションモデルの改良が可能なハードサンプルによる初期トレーニングデータセットの自動拡張と,アノテータの関与度を著しく低減する。
本手法は,データ収集時に観察される課題,すなわちデータの欠如に関する2つのモデル適応戦略に適用する。
i)タスク固有の負のデータ
(ii)正と負のデータの両方。
さらに,データ収集プロセスに適用した多様性基準を導入し,改良モデルの一般化性能をさらに向上させる。
提案手法は,nsfw(not safe for work)と,ベンチマークデータセットにおけるコンテンツ検出タスクを乱し,それぞれ1.32%と1.94%の精度向上を達成している。
最後に、nsfwタスクに人間の介入を必要とせず、コンテンツが乱される場合、92.54%のデータが自動的にアノテートされるため、人間の関与を著しく減少させる。
関連論文リスト
- GISTEmbed: Guided In-sample Selection of Training Negatives for Text
Embedding Fine-tuning [0.0]
GISTEmbedは、ガイドモデルによる対照的なトレーニングにおいて、バッチ内のネガティブな選択を強化する新しい戦略である。
MTEB(Massive Text Embedding Benchmark)に対してベンチマークされたGISTEmbedは、さまざまなモデルサイズで一貫したパフォーマンス改善を示している。
論文 参考訳(メタデータ) (2024-02-26T18:55:15Z) - Mitigating Reward Hacking via Information-Theoretic Reward Modeling [70.26019860948114]
本稿では,報酬モデリングのための汎用的で堅牢なフレームワークであるInfoRMを提案する。
我々は,潜伏空間における過最適化と外れ値の相関を同定し,報酬過最適化を検出するための有望なツールとしてInfoRMを確立した。
論文 参考訳(メタデータ) (2024-02-14T17:49:07Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - One-Shot Federated Learning with Classifier-Guided Diffusion Models [44.604485649167216]
ワンショット・フェデレーション・ラーニング (OSFL) は, 通信コストの低さから近年注目されている。
本稿では,OSFLに拡散モデルがもたらす新たな機会を探求し,FedCADOを提案する。
FedCADOはクライアントのディストリビューションに準拠したデータを生成し、その後、サーバ上で集約されたモデルをトレーニングします。
論文 参考訳(メタデータ) (2023-11-15T11:11:25Z) - QualEval: Qualitative Evaluation for Model Improvement [86.29905469151566]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Informative Data Mining for One-Shot Cross-Domain Semantic Segmentation [84.82153655786183]
Informative Data Mining (IDM) と呼ばれる新しいフレームワークを提案し、セマンティックセグメンテーションのための効率的なワンショットドメイン適応を実現する。
IDMは、最も情報性の高いサンプルを特定するために不確実性に基づく選択基準を提供し、迅速に適応し、冗長なトレーニングを減らす。
提案手法は,GTA5/SYNTHIAからCityscapesへの適応タスクにおいて,既存の手法より優れ,56.7%/55.4%の最先端のワンショット性能を実現している。
論文 参考訳(メタデータ) (2023-09-25T15:56:01Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - CausalAgents: A Robustness Benchmark for Motion Forecasting using Causal
Relationships [8.679073301435265]
既存のデータに摂動を適用することにより、モデルロバスト性の評価と改善のための新しいベンチマークを構築する。
我々はこれらのラベルを使用して、現場から非因果的エージェントを削除することでデータを摂動する。
非因果摂動下では, minADE の相対的な変化は, 原型と比較して25$-$38%である。
論文 参考訳(メタデータ) (2022-07-07T21:28:23Z) - Exploring the Efficacy of Automatically Generated Counterfactuals for
Sentiment Analysis [17.811597734603144]
本稿では,データ拡張と説明のためのデファクトデータの自動生成手法を提案する。
いくつかの異なるデータセットに対する包括的な評価と、さまざまな最先端ベンチマークの使用により、我々のアプローチがモデルパフォーマンスを大幅に改善できることを示す。
論文 参考訳(メタデータ) (2021-06-29T10:27:01Z) - Auto-weighted Robust Federated Learning with Corrupted Data Sources [7.475348174281237]
フェデレーション学習はコミュニケーション効率とプライバシ保護のトレーニングプロセスを提供する。
平均損失関数をナイーブに最小化する標準的なフェデレーション学習技術は、データの破損に弱い。
破損したデータソースに対して堅牢性を提供するために、自動重み付けロバストフェデレーテッドラーニング(arfl)を提案します。
論文 参考訳(メタデータ) (2021-01-14T21:54:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。