論文の概要: RUBAS: Rubric-Based Reinforcement Learning for Agent Safety
- arxiv url: http://arxiv.org/abs/2606.04051v1
- Date: Tue, 02 Jun 2026 09:02:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.27021
- Title: RUBAS: Rubric-Based Reinforcement Learning for Agent Safety
- Title(参考訳): RUBAS: エージェント安全のためのルーブリックベースの強化学習
- Authors: Xian Qi Loye, Qinglin Su, Zhexin Zhang, Shiyao Cui, Qi Zhu, Fei Mi, Hongning Wang, Minlie Huang,
- Abstract要約: RUBASは、エージェント安全性のためのルーリックベースの強化学習フレームワークである。
エージェントの動作は、ツール使用の安全性、引数の安全性、応答の安全性、役に立つ4つの次元に分けられる。
実験により、RUBASは標準アライメントベースラインよりも安全性を向上し、ツール接地幻覚を低減し、競争力を維持することが示されている。
- 参考スコア(独自算出の注目度): 93.80584563695646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The evolution of LLMs into tool-enabled agents creates a new class of safety challenges associated with real-world execution rather than simple text generation. Existing alignment methods often rely on coarse refusal signals or static supervision, making it difficult to balance safety with useful tool execution across diverse agentic risks. We introduce RUBAS, a rubric-based reinforcement learning framework for agent safety. RUBAS decomposes agent behavior into four dimensions: tool-use safety, argument safety, response safety, and helpfulness. These structured rubrics provide fine-grained and interpretable rewards over complete agent trajectories, enabling reinforcement learning to optimize safe tool use while preserving task completion. Extensive experiments across multiple agent safety benchmarks and models show that RUBAS improves safety over standard alignment baselines, reduces tool-grounded hallucinations, and maintains competitive utility. Our results suggest that multi-dimensional rubric rewards provide an effective training signal for aligning LLM agents in safety-critical tool-use settings.
- Abstract(参考訳): LLMのツール対応エージェントへの進化は、単純なテキスト生成ではなく、現実の実行に関わる新しい種類の安全課題を生み出している。
既存のアライメント手法は、しばしば粗い拒絶信号や静的監視に依存しており、様々なエージェントのリスクに対して有用なツールの実行と安全性のバランスをとるのが困難である。
RUBASは、エージェント安全性のためのルーリックベースの強化学習フレームワークである。
RUBASはエージェントの動作を,ツール使用の安全性,引数の安全性,応答の安全性,有用性という4つの次元に分割する。
これらの構造されたルーリックは、完全なエージェント軌跡よりも微細で解釈可能な報酬を提供し、強化学習はタスク完了を保ちながら安全なツール使用を最適化することができる。
複数のエージェント安全性ベンチマークとモデルにわたる大規模な実験は、RUBASが標準アライメントベースラインよりも安全性を改善し、ツール接地幻覚を低減し、競争力のあるユーティリティを維持していることを示している。
以上の結果から,多次元ルーリック報酬は,LLMエージェントを安全上重要なツール使用環境に整合させる効果的なトレーニング信号となることが示唆された。
関連論文リスト
- On-Policy Self-Evolution via Failure Trajectories for Agentic Safety Alignment [54.30690671490447]
既存の安全アライメント信号は、主に応答レベルまたは政治外である。
FATEは、検証済みの失敗を専門家のデモンストレーションなしで修復管理に変換する。
FATEは攻撃成功率を33.5%、有害なコンプライアンスを82.6%削減し、外的軌道安全診断を6.5%改善する。
論文 参考訳(メタデータ) (2026-05-12T09:56:28Z) - Unsafer in Many Turns: Benchmarking and Defending Multi-Turn Safety Risks in Tool-Using Agents [68.20752678837377]
本稿では,単一ターン有害なタスクを多ターン攻撃シーケンスに変換する基本的分類法を提案する。
この分類法を用いて,マルチターンツール使用エージェントの安全性を評価する最初のベンチマークであるMT-AgentRiskを構築した。
トレーニング不要で、ツールに依存しない、自己探索型防御ツールであるToolShieldを提案する。
論文 参考訳(メタデータ) (2026-02-13T18:38:18Z) - ToolSafe: Enhancing Tool Invocation Safety of LLM-based agents via Proactive Step-level Guardrail and Feedback [53.2744585868162]
エージェントのデプロイには、ステップレベルのツールの実行動作をリアルタイムで監視することが不可欠だ。
LLMエージェントにおけるステップレベルツール起動安全検出のための新しいベンチマークであるTS-Benchを構築した。
次に,マルチタスク強化学習を用いたガードレールモデルTS-Guardを開発した。
論文 参考訳(メタデータ) (2026-01-15T07:54:32Z) - UpSafe$^\circ$C: Upcycling for Controllable Safety in Large Language Models [67.91151588917396]
大規模言語モデル(LLM)は、幅広いタスクで顕著な進歩を遂げているが、有害なコンテンツ生成やジェイルブレイク攻撃といった安全リスクに弱いままである。
安全に配慮したリサイクルによるLCMの安全性向上のための統合フレームワークであるUpSafe$circ$Cを提案する。
この結果から, 静的アライメントから動的, モジュール, 推論対応制御への移行という, LLMの安全性の新たな方向性が明らかになった。
論文 参考訳(メタデータ) (2025-10-02T16:43:33Z) - Agent Safety Alignment via Reinforcement Learning [29.759393704688986]
ツール・ユース・エージェントのための一貫した安全アライメント・フレームワークを提案する。
我々は、良識、悪意があり、ユーザープロンプトとツール応答の両方に敏感な三段階分類を導入する。
その結果,安全性と有効性は共同で最適化できることが示唆された。
論文 参考訳(メタデータ) (2025-07-11T02:34:16Z) - AgentGuard: Repurposing Agentic Orchestrator for Safety Evaluation of Tool Orchestration [0.3222802562733787]
AgentGuardは、安全でないツールの使用を自律的に発見し、検証するフレームワークである。
エージェントの動作を限定する安全制約を生成し、安全保証の基準を達成する。
フレームワークは、安全でないことを識別し、実際の実行でそれらを検証し、安全性の制約を生成し、制約の有効性を検証する。
論文 参考訳(メタデータ) (2025-02-13T23:00:33Z) - Towards Comprehensive Post Safety Alignment of Large Language Models via Safety Patching [74.62818936088065]
textscSafePatchingは包括的なPSAのための新しいフレームワークである。
textscSafePatchingはベースラインメソッドよりも包括的なPSAを実現する。
textscSafePatchingは、連続的なPSAシナリオにおいて、その優位性を示している。
論文 参考訳(メタデータ) (2024-05-22T16:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。