論文の概要: Safety Game: Balancing Safe and Informative Conversations with Blackbox Agentic AI using LP Solvers
- arxiv url: http://arxiv.org/abs/2510.09330v1
- Date: Fri, 10 Oct 2025 12:32:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.987839
- Title: Safety Game: Balancing Safe and Informative Conversations with Blackbox Agentic AI using LP Solvers
- Title(参考訳): 安全ゲーム:LPソルバーを用いたブラックボックスエージェントAIによる安全・情報会話のバランス
- Authors: Tuan Nguyen, Long Tran-Thanh,
- Abstract要約: 既存のアライメントアプローチは費用がかかり、柔軟性がないため、新たな要件が発生すると再トレーニングが必要になる。
推論時アライメントに対する最近の取り組みは、これらの制限の一部を緩和するが、モデル内部へのアクセスを前提としている。
モデルに依存しない安全アライメントのためのブラックボックスフレームワークを提案する。
- 参考スコア(独自算出の注目度): 10.979571091316535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensuring that large language models (LLMs) comply with safety requirements is a central challenge in AI deployment. Existing alignment approaches primarily operate during training, such as through fine-tuning or reinforcement learning from human feedback, but these methods are costly and inflexible, requiring retraining whenever new requirements arise. Recent efforts toward inference-time alignment mitigate some of these limitations but still assume access to model internals, which is impractical, and not suitable for third party stakeholders who do not have access to the models. In this work, we propose a model-independent, black-box framework for safety alignment that does not require retraining or access to the underlying LLM architecture. As a proof of concept, we address the problem of trading off between generating safe but uninformative answers versus helpful yet potentially risky ones. We formulate this dilemma as a two-player zero-sum game whose minimax equilibrium captures the optimal balance between safety and helpfulness. LLM agents operationalize this framework by leveraging a linear programming solver at inference time to compute equilibrium strategies. Our results demonstrate the feasibility of black-box safety alignment, offering a scalable and accessible pathway for stakeholders, including smaller organizations and entities in resource-constrained settings, to enforce safety across rapidly evolving LLM ecosystems.
- Abstract(参考訳): 大規模言語モデル(LLM)が安全要件に準拠していることを保証することが、AIデプロイメントにおける中心的な課題である。
既存のアライメントアプローチは、人間のフィードバックからの微調整や強化学習などを通じてトレーニング中に主に機能するが、これらの手法は高価で柔軟性がなく、新しい要求が発生すると再訓練を必要とする。
推論時アライメントに対する最近の取り組みは、これらの制限を緩和する一方で、モデル内部へのアクセスを前提としています。
本研究では,モデルに依存しない安全アライメントのためのブラックボックスフレームワークを提案する。
概念実証として、安全だが非形式的な回答を生成することと、有用で潜在的に危険な回答とのトレードオフの問題に対処する。
このジレンマをミニマックス平衡が安全性と利便性の最適なバランスを捉えた2プレーヤゼロサムゲームとして定式化する。
LLMエージェントは、線形プログラミング解決器を推論時に利用して平衡戦略を計算することで、このフレームワークを運用する。
本研究は, ブラックボックス型安全アライメントの実現可能性を示し, 資源制約環境における小規模組織やエンティティを含む利害関係者に対して, 急速に発展するLCMエコシステムの安全を確保するための, スケーラブルでアクセスしやすい経路を提供するものである。
関連論文リスト
- COSMO-RL: Towards Trustworthy LMRMs via Joint Safety and Stability [101.80200069234377]
COSMO-RLは,マルチモーダル・マルチタスク・マルチオブジェクト信号下でLMRMを学習する混合強化学習フレームワークである。
我々のアプローチは、アライメント中に競合するのではなく、安全と能力をひとつの安定したパイプラインで一緒に成長させることを目的としています。
論文 参考訳(メタデータ) (2025-10-05T13:30:03Z) - Efficient Switchable Safety Control in LLMs via Magic-Token-Guided Co-Training [1.5349686675266894]
LLM(Large Language Models)におけるコンテンツ安全性の現在の手法は、マルチステージトレーニングパイプラインに依存している。
複数の安全性挙動を効率的に統合する統合協調学習フレームワークを提案する。
我々は,SFT+DPOの安全アライメント品質に一致し,安全性能においてDeepSeek-R1 (671B) を上回る8Bモデルを示した。
論文 参考訳(メタデータ) (2025-08-12T02:39:33Z) - Do LLMs Understand the Safety of Their Inputs? Training-Free Moderation via Latent Prototypes [1.0779346838250028]
ラテントプロトタイプモデレータ (LPM) は、ラテント空間におけるマハラノビス距離を用いて入力安全性を評価する訓練のないモデレーション手法である。
LPMは、複数の安全ベンチマークで最先端のガードモデルと一致または超えている。
論文 参考訳(メタデータ) (2025-02-22T10:31:50Z) - On Almost Surely Safe Alignment of Large Language Models at Inference-Time [20.5164976103514]
安全応答をほぼ確実に生成することを目的とした,LLMに対する新しい推論時間アライメント手法を提案する。
我々は、安全制約の進化を追跡し、安全でない世代を動的に罰する安全状態を強化する。
我々は,潜在空間におけるMDPを十分に大きな罰則で解く際に,与えられたコストモデルに対して公式な安全保証を示す。
論文 参考訳(メタデータ) (2025-02-03T09:59:32Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - SLM as Guardian: Pioneering AI Safety with Small Language Models [6.799423428734095]
より大型のモデルにセーフガード機能を組み込むことで、トレーニングコストの上昇と意図しない有用性の低下が問題となった。
本稿では、有害なクエリ検出とセーフガード応答生成の両方に、より小さなLSMを利用する。
提案手法の有効性を実証し,LLMと比較して,有害なクエリ検出およびセーフガード応答性能を同等又は超過する手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T08:03:15Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。