論文の概要: Revisiting Early Detection of Sexual Predators via Turn-level Optimization
- arxiv url: http://arxiv.org/abs/2503.06627v1
- Date: Sun, 09 Mar 2025 14:05:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:53:16.500846
- Title: Revisiting Early Detection of Sexual Predators via Turn-level Optimization
- Title(参考訳): ターンレベルの最適化による性的捕食者の早期検出の再検討
- Authors: Jinmyeong An, Sangwon Ryu, Heejin Do, Yunsu Kim, Jungseul Ok, Gary Geunbae Lee,
- Abstract要約: オンライングルーミングを検出するために,速度制御強化学習(SCoRL)を提案する。
ターンレベルのリスクラベルに基づいて,速度と精度のトレードオフをバランスさせる新しい速度制御報酬関数を設計する。
実験の結果、SCoRLはオンラインでのグルーミングを効果的にプリエンプションし、より積極的にタイムリーなソリューションを提供することがわかった。
- 参考スコア(独自算出の注目度): 11.403802843429814
- License:
- Abstract: Online grooming is a severe social threat where sexual predators gradually entrap child victims with subtle and gradual manipulation. Therefore, timely intervention for online grooming is critical for proactive protection. However, previous methods fail to determine the optimal intervention points (i.e., jump to conclusions) as they rely on chat-level risk labels by causing weak supervision of risky utterances. For timely detection, we propose speed control reinforcement learning (SCoRL) (The code and supplementary materials are available at https://github.com/jinmyeongAN/SCoRL), incorporating a practical strategy derived from luring communication theory (LCT). To capture the predator's turn-level entrapment, we use a turn-level risk label based on the LCT. Then, we design a novel speed control reward function that balances the trade-off between speed and accuracy based on turn-level risk label; thus, SCoRL can identify the optimal intervention moment. In addition, we introduce a turn-level metric for precise evaluation, identifying limitations in previously used chat-level metrics. Experimental results show that SCoRL effectively preempted online grooming, offering a more proactive and timely solution. Further analysis reveals that our method enhances performance while intuitively identifying optimal early intervention points.
- Abstract(参考訳): オンラインのグルーミングは、性的捕食者が徐々に子供の犠牲者を微妙で段階的な操作で誘惑する深刻な社会的脅威である。
したがって、オンライングルーミングのタイムリーな介入は、積極的に保護するために重要である。
しかし、従来の手法では、チャットレベルのリスクラベルに依存するため、適切な介入ポイント(すなわち、結論にジャンプする)を決定することができない。
本稿では, 速度制御強化学習(SCoRL)を提案する(コードと補助材料はhttps://github.com/jinmyeongAN/SCoRL)。
捕食者のターンレベルの侵入を捉えるために,LCTに基づくターンレベルのリスクラベルを用いる。
そして、ターンレベルのリスクラベルに基づいて、速度と精度のトレードオフをバランスさせる新しい速度制御報酬関数を設計し、SCoRLが最適な介入モーメントを識別する。
さらに,これまで使用されていたチャットレベルメトリクスの制限を識別する,正確な評価のためのターンレベルメトリックを導入する。
実験の結果、SCoRLはオンラインでのグルーミングを効果的にプリエンプションし、より積極的にタイムリーなソリューションを提供することがわかった。
さらに解析した結果,本手法は最適早期介入点を直感的に同定し,性能の向上を図っている。
関連論文リスト
- PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。
これは、安全なデプロイメントを保証する上で、大きな課題となる。
PredictaBoardは,新しいベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T10:52:38Z) - Palisade -- Prompt Injection Detection Framework [0.9620910657090188]
大規模言語モデルは、悪意のあるインジェクション攻撃に対して脆弱である。
本稿では,新しいNLPを用いたインジェクション検出手法を提案する。
階層化された入力スクリーニングプロセスを通じて精度と最適化を強調する。
論文 参考訳(メタデータ) (2024-10-28T15:47:03Z) - Shortcuts Arising from Contrast: Effective and Covert Clean-Label Attacks in Prompt-Based Learning [40.130762098868736]
本稿では、アクティベーション値を活用し、トリガ設計とデータ選択戦略を統合して、より強力なショートカット機能を実現するContrastive Shortcut Injection (CSI) を提案する。
フルショットおよび少数ショットのテキスト分類タスクに関する広範な実験により、CSIの高有効性と高い盗聴性を低毒性率で実証的に検証した。
論文 参考訳(メタデータ) (2024-03-30T20:02:36Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Improved Activation Clipping for Universal Backdoor Mitigation and
Test-Time Detection [27.62279831135902]
ディープニューラルネットワークは、攻撃者がバックドアトリガーでトレーニングセットに毒を盛るトロイア攻撃に対して脆弱である。
近年の研究では、バックドア中毒は攻撃されたモデルにおいて過剰な適合(通常、大きな活性化)を引き起こすことが示されている。
我々は、分類マージンを明示的に制限するためにアクティベーション境界を選択する新しいアプローチを考案する。
論文 参考訳(メタデータ) (2023-08-08T22:47:39Z) - Safe Deployment for Counterfactual Learning to Rank with Exposure-Based
Risk Minimization [63.93275508300137]
本稿では,安全な配置を理論的に保証する新たなリスク認識型対実学習ランク法を提案する。
提案手法の有効性を実験的に検証し,データが少ない場合の動作不良の早期回避に有効であることを示す。
論文 参考訳(メタデータ) (2023-04-26T15:54:23Z) - Semi-Supervised Temporal Action Detection with Proposal-Free Masking [134.26292288193298]
PropOsal-free Temporal mask (SPOT) に基づく新しい半教師付き時間行動検出モデルを提案する。
SPOTは最先端の代替品よりも優れている。
論文 参考訳(メタデータ) (2022-07-14T16:58:47Z) - Improving the Efficiency of Off-Policy Reinforcement Learning by
Accounting for Past Decisions [20.531576904743282]
オフ政治推定バイアスは、決定ごとに補正される。
Tree BackupやRetraceといったオフポリティクスアルゴリズムはこのメカニズムに依存している。
任意の過去のトレースを許可するマルチステップ演算子を提案する。
論文 参考訳(メタデータ) (2021-12-23T00:07:28Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。