論文の概要: Towards an Automated Framework to Audit Youth Safety on TikTok
- arxiv url: http://arxiv.org/abs/2509.05838v1
- Date: Sat, 06 Sep 2025 21:30:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.737771
- Title: Towards an Automated Framework to Audit Youth Safety on TikTok
- Title(参考訳): TikTokの若者の安全を監査するフレームワーク
- Authors: Linda Xue, Francesco Corso, Nicolo' Fontana, Geng Liu, Stefano Ceri, Francesco Pierri,
- Abstract要約: 本稿では,TikTokの執行機構が若者のアカウントに有害なコンテンツが露出することを抑える効果について検討する。
7000本以上のビデオを収集し、有害か有害かの分類を行い、そして年齢に応じたソックパペットアカウントを使って相互作用をシミュレートする。
予備的な結果は、成人と青少年のアカウント間のコンテンツ露出の最小限の差を示し、プラットフォームが年齢ベースで調整されていることを懸念している。
- 参考スコア(独自算出の注目度): 6.83645418303131
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the effectiveness of TikTok's enforcement mechanisms for limiting the exposure of harmful content to youth accounts. We collect over 7000 videos, classify them as harmful vs not-harmful, and then simulate interactions using age-specific sockpuppet accounts through both passive and active engagement strategies. We also evaluate the performance of large language (LLMs) and vision-language models (VLMs) in detecting harmful content, identifying key challenges in precision and scalability. Preliminary results show minimal differences in content exposure between adult and youth accounts, raising concerns about the platform's age-based moderation. These findings suggest that the platform needs to strengthen youth safety measures and improve transparency in content moderation.
- Abstract(参考訳): 本稿では,TikTokの執行機構が若者のアカウントに有害なコンテンツが露出することを抑える効果について検討する。
7000本以上のビデオを収集し、有害か有害かを分類し、そして受動的エンゲージメント戦略とアクティブエンゲージメント戦略の両方を通じて、年齢固有のソックパペットアカウントを使用してインタラクションをシミュレートする。
また,大規模言語(LLM)と視覚言語モデル(VLM)の性能評価を行い,有害なコンテンツの検出,精度とスケーラビリティの重要な課題を明らかにした。
予備的な結果は、成人と青少年のアカウント間のコンテンツ露出の最小限の差を示し、プラットフォームが年齢ベースで調整されていることを懸念している。
これらの結果から,このプラットフォームは若者の安全対策を強化し,コンテンツモデレーションの透明性を向上させる必要があることが示唆された。
関連論文リスト
- Catching Dark Signals in Algorithms: Unveiling Audiovisual and Thematic Markers of Unsafe Content Recommended for Children and Teenagers [13.39320891153433]
ショートフォームビデオプラットフォームの普及は、年齢検証メカニズムの非効率さと相まって、アルゴリズムを改造したオンライン環境において、子供やティーンエイジャーが直面する潜在的な害について懸念を喚起する。
Instagram Reels, TikTok, YouTube Shortsで, 子どもとティーンエイジャーに推奨される4,492本のショートビデオのマルチモーダル特徴分析とテーマ・トピック・モデリングを行った。
この特徴レベルおよびコンテンツレベルの分析により、安全でない(つまり、精神的に苦しむ)ショートビデオは、より暗い視覚的特徴を持ち、明らかな有害なコンテンツと、不安を引き起こす通常のコンテンツによる暗黙の害を含んでいることが明らかとなった。
論文 参考訳(メタデータ) (2025-07-16T18:41:42Z) - MinorBench: A hand-built benchmark for content-based risks for children [0.0]
大型言語モデル(LLM)は、親主導の養子縁組、学校、ピアネットワークを通じて、子供の生活に急速に浸透している。
現在のAI倫理と安全研究は、未成年者特有のコンテンツ関連リスクに適切に対処していない。
我々は,未成年者に対するコンテンツベースのリスクの新しい分類法を提案し,子どもの安全でないクエリや不適切なクエリを拒否する能力に基づいてLSMを評価するために設計されたオープンソースのベンチマークであるMinorBenchを紹介した。
論文 参考訳(メタデータ) (2025-03-13T10:34:43Z) - EdgeAIGuard: Agentic LLMs for Minor Protection in Digital Spaces [13.180252900900854]
本稿では,未成年者に対するオンライングルーミングやデジタル活用のさまざまな形態から保護するためのEdgeAIGuardコンテンツモデレーション手法を提案する。
提案手法は,ネットワークエッジに戦略的に配置したマルチエージェントアーキテクチャを用いて,低レイテンシで高速に検出し,未成年者を対象とした有害なコンテンツを防止する。
論文 参考訳(メタデータ) (2025-02-28T16:29:34Z) - Illusions of Relevance: Using Content Injection Attacks to Deceive Retrievers, Rerankers, and LLM Judges [52.96987928118327]
検索,リランカー,大型言語モデル(LLM)の埋め込みモデルは,コンテンツインジェクション攻撃に対して脆弱であることがわかった。
主な脅威は,(1) 意味不明な内容や有害な内容の挿入,(2) 関連性を高めるために,問合せ全体あるいはキークエリ用語の挿入,の2つである。
本研究は, 注射内容の配置や関連物質と非関連物質とのバランスなど, 攻撃の成功に影響を与える要因を系統的に検討した。
論文 参考訳(メタデータ) (2025-01-30T18:02:15Z) - Retention Score: Quantifying Jailbreak Risks for Vision Language Models [60.48306899271866]
VLM(Vision-Language Models)はLarge Language Models (LLM)と統合され、マルチモーダル機械学習機能を強化する。
本研究の目的は, モデル安全コンプライアンスを損なう可能性のある脱獄攻撃に対するVLMのレジリエンスを評価し, 有害な出力をもたらすことにある。
逆入力摂動に対するVLMの頑健性を評価するために,textbfRetention Scoreと呼ばれる新しい指標を提案する。
論文 参考訳(メタデータ) (2024-12-23T13:05:51Z) - Towards Safety and Helpfulness Balanced Responses via Controllable Large Language Models [64.5204594279587]
安全性を優先するモデルでは、ユーザがエンゲージメントやアシストを減らし、利便性の優先順位付けが害をもたらす可能性がある。
大規模言語モデルにおける両方の属性を制御することにより,多様なユースケースにおける安全性と利便性のバランスをとることを提案する。
論文 参考訳(メタデータ) (2024-04-01T17:59:06Z) - A Survey on Detection of LLMs-Generated Content [97.87912800179531]
LLMの生成する内容を検出する能力が最重要視されている。
既存の検出戦略とベンチマークの詳細な概要を提供する。
また、様々な攻撃から守るための多面的アプローチの必要性を示唆する。
論文 参考訳(メタデータ) (2023-10-24T09:10:26Z) - LLM Censorship: A Machine Learning Challenge or a Computer Security
Problem? [52.71988102039535]
セマンティック検閲は決定不能な問題として認識できることを示す。
我々は、知識のある攻撃者が不寛容なアウトプットを再構築できるため、これらの課題はセマンティックな検閲を超えて拡張されていると論じる。
論文 参考訳(メタデータ) (2023-07-20T09:25:02Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。