論文の概要: StagePilot: A Deep Reinforcement Learning Agent for Stage-Controlled Cybergrooming Simulation
- arxiv url: http://arxiv.org/abs/2602.05060v1
- Date: Wed, 04 Feb 2026 21:22:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.625528
- Title: StagePilot: A Deep Reinforcement Learning Agent for Stage-Controlled Cybergrooming Simulation
- Title(参考訳): StagePilot: ステージ制御型サイバーグルームシミュレーションのための深層強化学習エージェント
- Authors: Heajun An, Qi Zhang, Minqian Liu, Xinyi Zhang, Sang Won Lee, Lifu Huang, Pamela J. Wisniewski, Jin-Hee Cho,
- Abstract要約: オフラインのRLベースの対話エージェントで、予防トレーニングのためのグルーミング動作をシミュレートする。
StagePilotは、ユーザの感情とゴール近接のバランスをとる複合報酬を使用して、会話のステージを選択する。
- 参考スコア(独自算出の注目度): 43.82249118183964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cybergrooming is an evolving threat to youth, necessitating proactive educational interventions. We propose StagePilot, an offline RL-based dialogue agent that simulates the stage-wise progression of grooming behaviors for prevention training. StagePilot selects conversational stages using a composite reward that balances user sentiment and goal proximity, with transitions constrained to adjacent stages for realism and interpretability. We evaluate StagePilot through LLM-based simulations, measuring stage completion, dialogue efficiency, and emotional engagement. Results show that StagePilot generates realistic and coherent conversations aligned with grooming dynamics. Among tested methods, the IQL+AWAC agent achieves the best balance between strategic planning and emotional coherence, reaching the final stage up to 43% more frequently than baselines while maintaining over 70% sentiment alignment.
- Abstract(参考訳): サイバーグルームは若者にとって進化的な脅威であり、積極的な教育介入を必要としている。
そこで本研究では,RLをベースとしたオフライン対話エージェントであるStagePilotを提案する。
StagePilotは、ユーザの感情とゴール近接のバランスをとる複合報酬を使用して、会話のステージを選択する。
LLMに基づくシミュレーション,ステージ完了度,対話効率,情緒的エンゲージメントなどを用いて,StagePilotの評価を行った。
その結果、StagePilotはグルーミングダイナミクスと整合した現実的で一貫性のある会話を生成することがわかった。
テスト手法の中で、IQL+AWACエージェントは、戦略的計画と感情的一貫性のバランスを最大限に保ち、最終段階はベースラインよりも最大43%の頻度で到達し、70%以上の感情的アライメントを維持している。
関連論文リスト
- VLS: Steering Pretrained Robot Policies via Vision-Language Models [31.189909515514668]
Vision-Language Steering (VLS)は、凍結生成ロボットポリシーの推論時間適応のためのトレーニング不要フレームワークである。
VLSは、適応を推論時間制御問題として扱い、事前訓練された拡散またはフローマッチングポリシーのサンプリングプロセスを操る。
論文 参考訳(メタデータ) (2026-02-03T19:50:16Z) - GameTalk: Training LLMs for Strategic Conversation [51.29670609281524]
マルチターンインタラクションによる戦略的意思決定のために,LLMをトレーニングするフレームワークであるtextbfGameTalkを紹介した。
シングルターンの目的や静的アクション予測に焦点を当てた以前の作業とは異なり、私たちはLLMをトレーニングして、全会話にわたってグローバルな目的を最適化します。
本手法は, 推論, コーディネート, 対戦型モデリングの異なる側面を強調するために設計された, ますます複雑なゲーム群に対して評価する。
論文 参考訳(メタデータ) (2026-01-22T19:18:39Z) - Dyna-Mind: Learning to Simulate from Experience for Better AI Agents [62.21219817256246]
私たちは、現在のAIエージェントは、行動する前に、別の未来を精神的にシミュレートする能力である「悪意ある試行錯誤」を必要としていると論じます。
我々は、(V)LMエージェントに対して、そのようなシミュレーションを推論に組み込むように明示的に教える2段階のトレーニングフレームワークであるDyna-Mindを紹介した。
論文 参考訳(メタデータ) (2025-10-10T17:30:18Z) - UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning [78.86567400365392]
オフライン軌道上でオンラインRLをシミュレートする新しいパラダイムであるセミオンライン強化学習を提案する。
長期トレーニング信号をキャプチャするために、Semi-online RLは報酬計算に割引先を返す。
実験の結果,Semi-online RLは4つの動的ベンチマークで7Bモデル間でSOTA性能を実現することがわかった。
論文 参考訳(メタデータ) (2025-09-15T03:24:08Z) - A Backbone for Long-Horizon Robot Task Understanding [8.889888977376886]
Therblig-Based Backbone Framework (TBBF)は、ロボットシステムにおける解釈可能性、データ効率、一般化を強化する構造である。
TBBFは、専門家によるデモンストレーションを利用して、rbligレベルのタスク分解を可能にする。
オフライントレーニングの段階において,正確なソルビグセグメンテーションのためのMeta-RGate SynerFusionネットワークを開発した。
オンラインテストの段階では、新しいタスクのワンショットデモが収集された後、MGSFネットワークは高いレベルの知識を抽出する。
論文 参考訳(メタデータ) (2024-08-02T15:32:42Z) - A Hierarchical Hybrid Learning Framework for Multi-agent Trajectory
Prediction [4.181632607997678]
深層学習(DL)と強化学習(RL)の階層的ハイブリッドフレームワークを提案する。
DLの段階では、トラフィックシーンは、トランスフォーマースタイルのGNNが異種相互作用を符号化するために採用される複数の中間スケールの異種グラフに分割される。
RLの段階では、DLの段階で予測される重要な将来点を利用して、交通シーンを局所的なサブシーンに分割する。
論文 参考訳(メタデータ) (2023-03-22T02:47:42Z) - Language-guided Navigation via Cross-Modal Grounding and Alternate
Adversarial Learning [66.9937776799536]
新たなビジョン・アンド・ランゲージナビゲーション(VLN)問題は、見えない写真リアリスティック環境において、エージェントがターゲットの場所に向かうことを学習することを目的としている。
VLNの主な課題は、主に2つの側面から生じている: まず、エージェントは動的に変化する視覚環境に対応する言語命令の有意義な段落に出席する必要がある。
そこで本稿では,エージェントにテキストと視覚の対応性を追跡する機能を持たせるために,クロスモーダルグラウンドモジュールを提案する。
論文 参考訳(メタデータ) (2020-11-22T09:13:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。