論文の概要: MTikGuard System: A Transformer-Based Multimodal System for Child-Safe Content Moderation on TikTok
- arxiv url: http://arxiv.org/abs/2511.17955v1
- Date: Sat, 22 Nov 2025 07:41:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.539584
- Title: MTikGuard System: A Transformer-Based Multimodal System for Child-Safe Content Moderation on TikTok
- Title(参考訳): MTikGuard System:TikTok上での児童安全コンテンツモデレーションのためのトランスフォーマーベースのマルチモーダルシステム
- Authors: Dat Thanh Nguyen, Nguyen Hung Lam, Anh Hoang-Thi Nguyen, Trong-Hop Do,
- Abstract要約: MTikGuardはTikTokのリアルタイムマルチモーダル有害コンテンツ検出システムである。
ビジュアル、オーディオ、テキストの機能を駆使して、89.37%の精度と89.45%のF1スコアで最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 2.679345223424902
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the rapid rise of short-form videos, TikTok has become one of the most influential platforms among children and teenagers, but also a source of harmful content that can affect their perception and behavior. Such content, often subtle or deceptive, challenges traditional moderation methods due to the massive volume and real-time nature of uploads. This paper presents MTikGuard, a real-time multimodal harmful content detection system for TikTok, with three key contributions: (1) an extended TikHarm dataset expanded to 4,723 labeled videos by adding diverse real-world samples, (2) a multimodal classification framework integrating visual, audio, and textual features to achieve state-of-the-art performance with 89.37% accuracy and 89.45% F1-score, and (3) a scalable streaming architecture built on Apache Kafka and Apache Spark for real-time deployment. The results demonstrate the effectiveness of combining dataset expansion, advanced multimodal fusion, and robust deployment for practical large-scale social media content moderation. The dataset is available at https://github.com/ntdat-8324/MTikGuard-System.git.
- Abstract(参考訳): ショートフォームビデオが急速に普及し、TikTokは子供やティーンエイジャーの間でもっとも影響力のあるプラットフォームの一つになった。
このようなコンテンツは、しばしば微妙で欺かれるものであり、アップロードの膨大な量とリアルタイムの性質のために、従来のモデレーション手法に挑戦する。
本稿では,TikTokのリアルタイムマルチモーダル有害コンテンツ検出システムであるMTikGuardについて,(1)多種多様な実世界のサンプルを追加することで,TikHarmデータセットを拡張した4,723件のラベル付きビデオに拡張した,(2)最先端のパフォーマンスを89.37%の精度と89.45%のF1スコア,(3)リアルタイムデプロイメントのためにApache KafkaとApache Spark上に構築されたスケーラブルなストリーミングアーキテクチャを実現するためのマルチモーダル分類フレームワークを提案する。
その結果,大規模ソーシャルメディアコンテンツモデレーションのためのデータセット拡張,高度マルチモーダル融合,ロバスト展開の併用の有効性が示された。
データセットはhttps://github.com/ntdat-8324/MTikGuard-System.gitで公開されている。
関連論文リスト
- Multimodal Hate Detection Using Dual-Stream Graph Neural Networks [20.082029756403976]
幸せなビデオは、オンラインの安全と現実世界の幸福に深刻なリスクをもたらす。
マルチモーダル分類アプローチはいくつかのモダリティからの情報を統合するが、最小限のヘイトフルコンテンツでさえビデオのカテゴリを定義することを無視するのが一般的である。
本稿では,ビデオ中の構造化情報をキャプチャする,新しいマルチモーダルなデュアルストリームグラフニューラルネットワークモデルを提案する。
論文 参考訳(メタデータ) (2025-09-16T20:20:05Z) - Generative Video Matting [57.186684844156595]
ビデオ・マッティングは、伝統的に高品質な地上データがないために制限されてきた。
既存のビデオ・マッティング・データセットのほとんどは、人間が注釈付けした不完全なアルファとフォアグラウンドのアノテーションのみを提供する。
本稿では,事前学習したビデオ拡散モデルから,よりリッチな事前処理を効果的に活用できる新しいビデオマッチング手法を提案する。
論文 参考訳(メタデータ) (2025-08-11T12:18:55Z) - What You Have is What You Track: Adaptive and Robust Multimodal Tracking [72.92244578461869]
本研究では,時間的に不完全なマルチモーダルデータを用いたトラッカー性能に関する総合的研究を行った。
我々のモデルは9つのベンチマークでSOTA性能を達成し、従来の完全性と欠落したモダリティ設定の両方で優れている。
論文 参考訳(メタデータ) (2025-07-08T11:40:21Z) - HyperFusion: Hierarchical Multimodal Ensemble Learning for Social Media Popularity Prediction [16.78634288864967]
ソーシャルメディアの人気予測は、コンテンツ最適化、マーケティング戦略、デジタルプラットフォーム全体のユーザエンゲージメント向上において重要な役割を果たす。
本稿では,ソーシャルメディアの人気予測のための階層型マルチモーダルアンサンブル学習フレームワークHyperFusionを提案する。
論文 参考訳(メタデータ) (2025-07-01T16:31:50Z) - CLaMR: Contextualized Late-Interaction for Multimodal Content Retrieval [70.9990850395981]
CLaMRは、ビデオフレーム、書き起こされた音声、画面上のテキスト、メタデータの4つのモダリティを共同でインデックスするマルチモーダルな遅延相互作用レトリバーである。
CLaMRは2つの重要な革新を通じて動的モダリティ選択を強化するために訓練されている。
論文 参考訳(メタデータ) (2025-06-06T15:02:30Z) - Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models [111.97026994761254]
Mixture-of-Transformer (MoT) はスパースマルチモーダルトランスアーキテクチャである。
MoTはモデルの非埋め込みパラメータをモダリティで分離する。
複数の設定とモデルスケールでMoTを評価する。
論文 参考訳(メタデータ) (2024-11-07T18:59:06Z) - Dissecting Multimodality in VideoQA Transformer Models by Impairing Modality Fusion [54.33764537135906]
VideoQA Transformerモデルは標準ベンチマークで競合性能を示す。
これらのモデルはビデオとテキストからリッチなマルチモーダル構造とダイナミックスを一緒に捉えていますか?
彼らはバイアスと刺激的な特徴を利用して高いスコアを達成していますか?
論文 参考訳(メタデータ) (2023-06-15T06:45:46Z) - GAME-ON: Graph Attention Network based Multimodal Fusion for Fake News Detection [6.037721620350107]
我々は,マルチモーダルフェイクニュース検出のためのより堅牢なデータ表現を学習するための,グラフニューラルネットワークに基づくエンドツーエンドトレーニング可能なフレームワークであるGAME-ONを提案する。
当社のモデルはTwitter上で平均11%向上し、Weiboでは2.6%のマージンで競争力を維持する一方で、最も優れた最先端ベースラインよりも65%少ないパラメータを使用する。
論文 参考訳(メタデータ) (2022-02-25T03:27:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。