論文の概要: Revisiting Early Detection of Sexual Predators via Turn-level Optimization
- arxiv url: http://arxiv.org/abs/2503.06627v1
- Date: Sun, 09 Mar 2025 14:05:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 20:09:44.519539
- Title: Revisiting Early Detection of Sexual Predators via Turn-level Optimization
- Title(参考訳): ターンレベルの最適化による性的捕食者の早期検出の再検討
- Authors: Jinmyeong An, Sangwon Ryu, Heejin Do, Yunsu Kim, Jungseul Ok, Gary Geunbae Lee,
- Abstract要約: オンライングルーミングを検出するために,速度制御強化学習(SCoRL)を提案する。
ターンレベルのリスクラベルに基づいて,速度と精度のトレードオフをバランスさせる新しい速度制御報酬関数を設計する。
実験の結果、SCoRLはオンラインでのグルーミングを効果的にプリエンプションし、より積極的にタイムリーなソリューションを提供することがわかった。
- 参考スコア(独自算出の注目度): 11.403802843429814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online grooming is a severe social threat where sexual predators gradually entrap child victims with subtle and gradual manipulation. Therefore, timely intervention for online grooming is critical for proactive protection. However, previous methods fail to determine the optimal intervention points (i.e., jump to conclusions) as they rely on chat-level risk labels by causing weak supervision of risky utterances. For timely detection, we propose speed control reinforcement learning (SCoRL) (The code and supplementary materials are available at https://github.com/jinmyeongAN/SCoRL), incorporating a practical strategy derived from luring communication theory (LCT). To capture the predator's turn-level entrapment, we use a turn-level risk label based on the LCT. Then, we design a novel speed control reward function that balances the trade-off between speed and accuracy based on turn-level risk label; thus, SCoRL can identify the optimal intervention moment. In addition, we introduce a turn-level metric for precise evaluation, identifying limitations in previously used chat-level metrics. Experimental results show that SCoRL effectively preempted online grooming, offering a more proactive and timely solution. Further analysis reveals that our method enhances performance while intuitively identifying optimal early intervention points.
- Abstract(参考訳): オンラインのグルーミングは、性的捕食者が徐々に子供の犠牲者を微妙で段階的な操作で誘惑する深刻な社会的脅威である。
したがって、オンライングルーミングのタイムリーな介入は、積極的に保護するために重要である。
しかし、従来の手法では、チャットレベルのリスクラベルに依存するため、適切な介入ポイント(すなわち、結論にジャンプする)を決定することができない。
本稿では, 速度制御強化学習(SCoRL)を提案する(コードと補助材料はhttps://github.com/jinmyeongAN/SCoRL)。
捕食者のターンレベルの侵入を捉えるために,LCTに基づくターンレベルのリスクラベルを用いる。
そして、ターンレベルのリスクラベルに基づいて、速度と精度のトレードオフをバランスさせる新しい速度制御報酬関数を設計し、SCoRLが最適な介入モーメントを識別する。
さらに,これまで使用されていたチャットレベルメトリクスの制限を識別する,正確な評価のためのターンレベルメトリックを導入する。
実験の結果、SCoRLはオンラインでのグルーミングを効果的にプリエンプションし、より積極的にタイムリーなソリューションを提供することがわかった。
さらに解析した結果,本手法は最適早期介入点を直感的に同定し,性能の向上を図っている。
関連論文リスト
- DataSentinel: A Game-Theoretic Detection of Prompt Injection Attacks [101.52204404377039]
LLM統合されたアプリケーションとエージェントは、インジェクション攻撃に弱い。
検出方法は、入力が注入プロンプトによって汚染されているかどうかを判定することを目的とする。
本研究では,迅速なインジェクション攻撃を検出するゲーム理論手法であるDataSentinelを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:26:21Z) - PR-Attack: Coordinated Prompt-RAG Attacks on Retrieval-Augmented Generation in Large Language Models via Bilevel Optimization [13.751251342738225]
大規模言語モデル(LLM)は、幅広いアプリケーションで顕著な性能を示している。
それらはまた、時代遅れの知識や幻覚への感受性のような固有の制限も示している。
近年の取り組みはRAGベースのLLMのセキュリティに重点を置いているが、既存の攻撃方法は3つの重大な課題に直面している。
本稿では,少数の有毒テキストを知識データベースに導入する新しい最適化型攻撃であるPrompt-RAGアタック(PR-アタック)を提案する。
論文 参考訳(メタデータ) (2025-04-10T13:09:50Z) - PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。
これは、安全なデプロイメントを保証する上で、大きな課題となる。
PredictaBoardは,新しいベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T10:52:38Z) - Probabilistic Perspectives on Error Minimization in Adversarial Reinforcement Learning [18.044879441434432]
自動運転車は、交通標識に関する感覚入力が敵によって操作される場合、破滅的な結果をもたらす可能性がある。
このような状況における中核的な課題は、環境の真の状態は、このような敵の操作によって部分的にしか観察できないことである。
本稿では,その根底にある真の状態についての信念に基づいて定義された,ACoE(Adversarial Counterfactual Error)という新たな目標を提案する。
論文 参考訳(メタデータ) (2024-06-07T08:14:24Z) - Shortcuts Arising from Contrast: Effective and Covert Clean-Label Attacks in Prompt-Based Learning [40.130762098868736]
本稿では、アクティベーション値を活用し、トリガ設計とデータ選択戦略を統合して、より強力なショートカット機能を実現するContrastive Shortcut Injection (CSI) を提案する。
フルショットおよび少数ショットのテキスト分類タスクに関する広範な実験により、CSIの高有効性と高い盗聴性を低毒性率で実証的に検証した。
論文 参考訳(メタデータ) (2024-03-30T20:02:36Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Improved Activation Clipping for Universal Backdoor Mitigation and
Test-Time Detection [27.62279831135902]
ディープニューラルネットワークは、攻撃者がバックドアトリガーでトレーニングセットに毒を盛るトロイア攻撃に対して脆弱である。
近年の研究では、バックドア中毒は攻撃されたモデルにおいて過剰な適合(通常、大きな活性化)を引き起こすことが示されている。
我々は、分類マージンを明示的に制限するためにアクティベーション境界を選択する新しいアプローチを考案する。
論文 参考訳(メタデータ) (2023-08-08T22:47:39Z) - Safe Deployment for Counterfactual Learning to Rank with Exposure-Based
Risk Minimization [63.93275508300137]
本稿では,安全な配置を理論的に保証する新たなリスク認識型対実学習ランク法を提案する。
提案手法の有効性を実験的に検証し,データが少ない場合の動作不良の早期回避に有効であることを示す。
論文 参考訳(メタデータ) (2023-04-26T15:54:23Z) - Semi-Supervised Temporal Action Detection with Proposal-Free Masking [134.26292288193298]
PropOsal-free Temporal mask (SPOT) に基づく新しい半教師付き時間行動検出モデルを提案する。
SPOTは最先端の代替品よりも優れている。
論文 参考訳(メタデータ) (2022-07-14T16:58:47Z) - Improving the Efficiency of Off-Policy Reinforcement Learning by
Accounting for Past Decisions [20.531576904743282]
オフ政治推定バイアスは、決定ごとに補正される。
Tree BackupやRetraceといったオフポリティクスアルゴリズムはこのメカニズムに依存している。
任意の過去のトレースを許可するマルチステップ演算子を提案する。
論文 参考訳(メタデータ) (2021-12-23T00:07:28Z) - Bandit Quickest Changepoint Detection [55.855465482260165]
すべてのセンサの継続的な監視は、リソースの制約のためにコストがかかる可能性がある。
有限パラメータ化確率分布の一般クラスに対する検出遅延に基づく情報理論の下界を導出する。
本稿では,異なる検知オプションの探索と質問行動の活用をシームレスに両立させる,計算効率のよいオンラインセンシング手法を提案する。
論文 参考訳(メタデータ) (2021-07-22T07:25:35Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。