論文の概要: SaFeR-ToolKit: Structured Reasoning via Virtual Tool Calling for Multimodal Safety
- arxiv url: http://arxiv.org/abs/2603.02635v1
- Date: Tue, 03 Mar 2026 06:03:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.661415
- Title: SaFeR-ToolKit: Structured Reasoning via Virtual Tool Calling for Multimodal Safety
- Title(参考訳): SaFeR-ToolKit: マルチモーダルセーフティのための仮想ツールによる構造化推論
- Authors: Zixuan Xu, Tiancheng He, Huahui Yi, Kun Wang, Xi Chen, Gongli Xi, Qiankun Li, Kang Li, Yang Liu, Zhigang Zeng,
- Abstract要約: SaFeR-ToolKitはチェック可能なプロトコルとして安全意思決定を形式化する。
Plannerはペルソナ、パーセプション$to$推論$to$決定ツールセット、制約付き遷移グラフを指定する。
responseerは、最終回答の前に型付きキー値ツールトレースを出力する。
- 参考スコア(独自算出の注目度): 46.59197949113957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models remain susceptible to multimodal jailbreaks and over-refusal because safety hinges on both visual evidence and user intent, while many alignment pipelines supervise only the final response. To address this, we present SaFeR-ToolKit, which formalizes safety decision-making as a checkable protocol. Concretely, a planner specifies a persona, a Perception $\to$ Reasoning $\to$ Decision tool set, and a constrained transition graph, while a responder outputs a typed key-value tool trace before the final answer. To make the protocol reliably followed in practice, we train a single policy with a three-stage curriculum (SFT $\to$ DPO $\to$ GRPO), where GRPO directly supervises tool usage beyond answer-level feedback. Our contributions are two-fold: I. Dataset. The first tool-based safety reasoning dataset, comprising 31,654 examples (SFT 6k, DPO 18.6k, GRPO 6k) plus 1k held-out evaluation. II. Experiments. On Qwen2.5-VL, SaFeR-ToolKit significantly improves Safety/Helpfulness/Reasoning Rigor on 3B (29.39/45.04/4.98 $\to$ 84.40/71.13/78.87) and 7B (53.21/52.92/19.26 $\to$ 86.34/80.79/85.34), while preserving general capabilities (3B: 58.67 $\to$ 59.21; 7B: 66.39 $\to$ 66.81). Codes are available at https://github.com/Duebassx/SaFeR_ToolKit.
- Abstract(参考訳): 視覚言語モデルは、視覚的エビデンスとユーザ意図の両方に影響を与え、多くのアライメントパイプラインが最終応答のみを監督するため、マルチモーダルなジェイルブレイクや過剰拒絶の影響を受け続けている。
そこで本稿では,安全性決定をチェック可能なプロトコルとして定式化するSaFeR-ToolKitを提案する。
具体的には、プランナーはペルソナ、パーセプション$\to$Reasoning$\to$Decisionツールセット、制約された遷移グラフを指定し、応答器は最終回答の前に型付きキー値ツールトレースを出力する。
実際にプロトコルを確実に従わせるために、3段階のカリキュラム(SFT $\to$ DPO $\to$ GRPO)で1つのポリシーをトレーニングします。
私たちのコントリビューションは2つあります。
最初のツールベースの安全推論データセットは31,654のサンプル(SFT 6k、DPO 18.6k、GRPO 6k)と1kのホールドアウト評価を含む。
II。
実験。
Qwen2.5-VLでは、SaFeR-ToolKitは3B (29.39/45.04/4.98 $\to$ 84.40/71.13/78.87) と7B (53.21/52.92/19.26 $\to$ 86.34/80.79/85.34) で安全性/ヘルパフルネス/推論リゴールを著しく改善し、一般機能(B:58.67 $\to$ 59.21; 7B:66.39 $\to$ 66.81)を維持した。
コードはhttps://github.com/Duebassx/SaFeR_ToolKitで入手できる。
関連論文リスト
- Overthinking Loops in Agents: A Structural Risk via MCP Tools [10.476134239464889]
悪意のあるMPPツールサーバを,通常のツールと共同で登録し,過度なループを発生させることができることを示す。
3つのサーバに14の悪意あるツールを実装して、繰り返し、強制的な改善、気晴らしを引き起こします。
論文 参考訳(メタデータ) (2026-02-16T14:47:57Z) - Safety Recovery in Reasoning Models Is Only a Few Early Steering Steps Away [97.11976870616273]
本稿では,安全回復を目的ではなく満足度の高い制約として扱う軽量な推論時防衛法を提案する。
6つのオープンソースMLRMと4つのjailbreakベンチマークで評価した結果、SafeThinkは攻撃成功率を30~60%削減しました。
論文 参考訳(メタデータ) (2026-02-11T18:09:17Z) - Agent-Fence: Mapping Security Vulnerabilities Across Deep Research Agents [0.9368753183086048]
AgentFence*はアーキテクチャ中心のセキュリティ評価で、計画、メモリ、検索、ツールの使用、デリゲートにまたがる14の信頼境界攻撃クラスを定義します。
基本モデルの固定を保ち、永続的マルチターン相互作用の下で8つのエージェントアーチタイプを評価する。
Denial-of-Wallet (0.62 pm 0.08$), Authorization Confusion (0.54 pm 0.10$), Retrieval Poisoning (0.47 pm 0.09$), Planning Manipulation (0.44 pm 0.11$)。
論文 参考訳(メタデータ) (2026-02-07T18:27:47Z) - Self-Hinting Language Models Enhance Reinforcement Learning [37.311361929798714]
我々は、権限付き監督(SAGE)を備えた自己隠れ型GRPOを提案する。
SAGEはトレーニング中に特権付きヒントを注入し、同じ端末検証者報酬の下でロールアウト分布を再生成する。
3つのLSMを持つ6つのベンチマーク実験の結果、SAGEはGRPOを一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-03T05:56:20Z) - AlphaApollo: Orchestrating Foundation Models and Professional Tools into a Self-Evolving System for Deep Agentic Reasoning [110.57865233597762]
自己進化型エージェント推論システムであるAlphaApolloについて述べる。
基礎モデル(FM)における2つのボトルネックに対処することを目的としている。
AlphaApolloは、意図的に検証可能な推論を可能にするために、複数のモデルをプロのツールで編成する。
論文 参考訳(メタデータ) (2025-10-05T15:42:24Z) - Beyond Linear Probes: Dynamic Safety Monitoring for Language Models [67.15793594651609]
従来の安全モニタは、クエリ毎に同じ量の計算を必要とする。
動的アクティベーションモニタリングのための線形プローブの自然な拡張であるTrncated Polynomials (TPCs)を紹介する。
我々の重要な洞察は、TPCを段階的に、短期的に訓練し、評価できるということです。
論文 参考訳(メタデータ) (2025-09-30T13:32:59Z) - Auditable Early Stopping for Agentic Routing: Ledger-Verified Run-Wise Certificates under Local DP [0.0]
ツール・ユース・エージェントのための最優先ルータが、よい葉を欠くことなく探索を止められるようになれば、私たちは対処します。
本稿では,各ノードのキーを,葉の摂動を実現する指数関数レースに結合するランワイズ証明書を提案する。
合成グラフと小さな実パイプラインの実験は、厳密な停止、決定論的リプレイ、オーバーヘッドの低さを示している。
論文 参考訳(メタデータ) (2025-09-09T01:25:09Z) - Transfer Q Star: Principled Decoding for LLM Alignment [105.89114186982972]
Transfer $Q*$は、ベースラインモデルを通してターゲット報酬$r$の最適値関数を推定する。
提案手法は, 従来のSoTA法で観測された準最適差を著しく低減する。
論文 参考訳(メタデータ) (2024-05-30T21:36:12Z) - AnyTool: Self-Reflective, Hierarchical Agents for Large-Scale API Calls [30.792186243538037]
我々はAnyToolを紹介した。AnyToolは巨大な言語モデルエージェントで、ユーザクエリに対処する膨大なツールの利用に革命をもたらすように設計されている。
Rapid APIから16,000以上のAPIを使用し、これらのAPIのサブセットがクエリを解決できると仮定して運用しています。
AnyToolには,階層構造を持つAPIレトリバー,選択したAPI候補セットを使用したユーザクエリの解決を目的とした解決器,自己反映機構という,3つの要素が含まれている。
論文 参考訳(メタデータ) (2024-02-06T18:59:57Z) - Intention Analysis Makes LLMs A Good Jailbreak Defender [79.4014719271075]
我々は,シンプルかつ高能率な防衛戦略,すなわち意図分析(mathbbIA$)を提示する。
$mathbbIA$ は LLM 固有の自己修正をトリガーし、2段階のプロセスを通じて能力を向上させる。
さまざまなjailbreakベンチマークの実験によると、$mathbbIA$は一貫して応答の有害性を著しく低減できる。
論文 参考訳(メタデータ) (2024-01-12T13:15:05Z) - Sparse R-CNN: End-to-End Object Detection with Learnable Proposals [77.9701193170127]
Sparse R-CNNは、画像中の物体検出のための純粋にスパースな方法である。
最終的な予測は、最大でない処理後抑制なしで直接出力される。
われわれの研究が、物体検知器に先立って密集した慣例を再考することを願っている。
論文 参考訳(メタデータ) (2020-11-25T00:01:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。