論文の概要: SafeCtrl-RL: Inference-Time Adaptive Behaviour Control for LLM Dialogue via RL-Driven Prompt Optimisation
- arxiv url: http://arxiv.org/abs/2605.25984v1
- Date: Mon, 25 May 2026 16:03:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.455137
- Title: SafeCtrl-RL: Inference-Time Adaptive Behaviour Control for LLM Dialogue via RL-Driven Prompt Optimisation
- Title(参考訳): SafeCtrl-RL:RL駆動のプロンプト最適化によるLLM対話のための推論時適応行動制御
- Authors: Michael Orme, Yanchao Yu, Zhiyuan Tan,
- Abstract要約: 推論時動作制御フレームワークである textbfSafeCtrl-RL を提案する。
モデルの再訓練やパラメータの変更なしに適応的な安全規制を可能にする。
安全と応答品質を継続的に改善し、既存のプロンプトベースの最適化方法より優れています。
- 参考スコア(独自算出の注目度): 2.0855978149238403
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Ensuring safe and contextually appropriate behaviour in Large Language Models (LLMs) remains a critical challenge for real-world deployment. We present \textbf{SafeCtrl-RL}, an inference-time behavioural control framework that enables adaptive safety regulation without model retraining or parameter modification. The method formulates dialogue generation as a sequential decision process, where a reinforcement learning agent dynamically selects prompt adjustment strategies based on contextual feedback. This allows unsafe behaviours to be suppressed through iterative refinement, which we conceptualise as inference-time behavioural unlearning. Evaluated across multiple LLMs and unsafe dialogue scenarios, SafeCtrl-RL consistently improves safety and response quality, outperforms existing prompt-based optimisation methods, and achieves favourable performance--efficiency trade-offs. **Warning: This paper may contain examples of harmful language, and reader discretion is recommended.
- Abstract(参考訳): LLM(Large Language Models)における安全かつコンテキスト的に適切な動作を保証することは、現実のデプロイメントにおいて重要な課題である。
本稿では,モデルの再トレーニングやパラメータ修正を伴わずに,適応的安全性制御を可能にする推論時行動制御フレームワークである,‘textbf{SafeCtrl-RL} を提案する。
この方法は、強化学習エージェントが文脈フィードバックに基づいてプロンプト調整戦略を動的に選択する逐次決定過程として対話生成を定式化する。
これにより、推論時の振る舞いの未学習を概念化する反復的洗練を通じて、安全でない振る舞いを抑えることができる。
SafeCtrl-RLは、複数のLLMおよび安全でない対話シナリオで評価され、安全と応答の質を一貫して改善し、既存のプロンプトベースの最適化手法より優れ、良好なパフォーマンスと効率のトレードオフを実現する。
*ウォーニング: この論文は有害な言語の例を含み、読者の判断が推奨される。
関連論文リスト
- OLIVIA: Online Learning via Inference-time Action Adaptation for Decision Making in LLM ReAct Agents [74.20327254615854]
大規模言語モデルエージェントは、シーケンシャルな意思決定タスクを解決するために、推論、行動選択、観察をインターリーブする。
LLMエージェントの既存の推論時間適応法は、主にプロンプトや検索に依存している。
提案するOLIVIAは,ReAct型エージェントのための推論時行動適応フレームワークである。
論文 参考訳(メタデータ) (2026-05-11T19:28:20Z) - Safe Reinforcement Learning via Recovery-based Shielding with Gaussian Process Dynamics Models [57.006252510102506]
強化学習(Reinforcement Learning, RL)は、最適な意思決定と制御のための強力なフレームワークである。
本稿では,未知および非線形連続力学系に対する安全性を低くした安全RLを実現するための新しい回復型遮蔽フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-12T22:03:35Z) - Policy-Conditioned Policies for Multi-Agent Task Solving [53.67744322553693]
本研究では,ポリシーを人間の解釈可能なソースコードとして表現することでギャップを埋めるパラダイムシフトを提案する。
本研究では,Large Language Models (LLM) を近似インタプリタとして利用することにより,学習問題を再構築する。
我々はこのプロセスを,ポリシーコードをテキスト勾配で最適化するアルゴリズムである TextitProgrammatic Iterated Best Response (PIBR) として定式化する。
論文 参考訳(メタデータ) (2025-12-24T07:42:10Z) - SafeCtrl: Region-Based Safety Control for Text-to-Image Diffusion via Detect-Then-Suppress [48.20360860166279]
SafeCtrlは軽量で非侵襲的なプラグインで、まず安全でないコンテンツを正確にローカライズします。
強硬なA-to-B置換を行う代わりに、SafeCtrlは有害なセマンティクスを抑える。
論文 参考訳(メタデータ) (2025-08-16T04:28:52Z) - Large Language Model driven Policy Exploration for Recommender Systems [50.70228564385797]
静的ユーザデータに基づいてトレーニングされたオフラインRLポリシは、動的オンライン環境にデプロイされた場合、分散シフトに対して脆弱である。
オンラインRLベースのRSも、トレーニングされていないポリシーや不安定なポリシーにユーザをさらけ出すリスクがあるため、運用デプロイメントの課題に直面している。
大規模言語モデル(LLM)は、ユーザー目標と事前学習ポリシーをオフラインで模倣する有望なソリューションを提供する。
LLMから抽出したユーザの嗜好を利用した対話型学習ポリシー(iALP)を提案する。
論文 参考訳(メタデータ) (2025-01-23T16:37:44Z) - Optimization Solution Functions as Deterministic Policies for Offline Reinforcement Learning [7.07623669995408]
本稿では,最適化の最適値に対する決定論的ポリシー(アクター)および単調関数として最適化解関数を用いる暗黙的アクター批判(iAC)フレームワークを提案する。
学習ポリシーは指数的減衰感度(EDS)特性を介して学習したアクターパラメータの準最適性に頑健であることを示す。
提案手法を実世界の2つのアプリケーションで検証し, 最先端(SOTA)オフラインRL法よりも大幅に改善したことを示す。
論文 参考訳(メタデータ) (2024-08-27T19:04:32Z) - Constrained Decision Transformer for Offline Safe Reinforcement Learning [16.485325576173427]
我々は、新しい多目的最適化の観点から、オフラインセーフなRL問題を考察する。
本稿では,デプロイメント中のトレードオフを動的に調整可能な制約付き決定変換器(CDT)アプローチを提案する。
論文 参考訳(メタデータ) (2023-02-14T21:27:10Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。