論文の概要: DRAFT: Task Decoupled Latent Reasoning for Agent Safety
- arxiv url: http://arxiv.org/abs/2604.03242v1
- Date: Wed, 11 Feb 2026 07:45:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.348605
- Title: DRAFT: Task Decoupled Latent Reasoning for Agent Safety
- Title(参考訳): DRAFT: エージェント安全のためのタスク分離遅延推論
- Authors: Lin Wang, Junfeng Fang, Dan Zhang, Fei Shen, Xiang Wang, Tat-Seng Chua,
- Abstract要約: DRAFT(Task Decoupled Latent Reasoning for Agent Safety)を提案する。
エクストラクターは、完全な軌跡をコンパクトな連続的な潜伏ドラフトに蒸留し、リゾナーはドラフトと元の軌跡に共同で参加して安全性を予測する。
DRAFTの精度は63.27%(LoRA)から91.18%に向上した。
- 参考スコア(独自算出の注目度): 59.46137757545185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advent of tool-using LLM agents shifts safety monitoring from output moderation to auditing long, noisy interaction trajectories, where risk-critical evidence is sparse-making standard binary supervision poorly suited for credit assignment. To address this, we propose DRAFT (Task Decoupled Latent Reasoning for Agent Safety), a latent reasoning framework that decouples safety judgment into two trainable stages: an Extractor that distills the full trajectory into a compact continuous latent draft, and a Reasoner that jointly attends to the draft and the original trajectory to predict safety. DRAFT avoids lossy explicit summarize-then-judge pipelines by performing evidence aggregation in latent space, enabling end-to-end differentiable training.Across benchmarks including ASSEBench and R-Judge, DRAFT consistently outperforms strong baselines, improving accuracy from 63.27% (LoRA) to 91.18% averaged over benchmarks, and learns more separable representations. Ablations demonstrate a clear synergy between the Extractor and the Reasoner.Overall, DRAFT suggests that continuous latent reasoning prior to readout is a practical path to robust agent safety under long-context supervision with sparse evidence.
- Abstract(参考訳): ツール利用 LLM エージェントの出現は、安全監視を出力のモデレーションから、リスククリティカルな証拠が少なからぬ二元管理が信用の割り当てに不適な、長い、ノイズの多い相互作用の軌跡へとシフトさせる。
そこで我々は,DRAFT(Task Decoupled Latent Reasoning for Agent Safety)を提案し,安全判断を2つの訓練可能な段階に分解する潜在推論フレームワークを提案する。
DRAFTは、遅延空間におけるエビデンスアグリゲーションアグリゲーションを実行し、エンドツーエンドの微分可能なトレーニングを可能にすることで、露骨なサマリ・ジャッジパイプラインを回避し、ASSEBenchやR-Judgeを含むベンチマークでは、DRAFTは、強いベースラインを一貫して上回り、ベンチマーク上で平均された63.27%から91.18%まで精度を向上し、より分離可能な表現を学習している。
アブレーションは、ExtractorとReasonerの明確な相乗効果を示すが、DRAFTは、読み出し前の連続潜伏推論は、スパースエビデンスによる長期文脈の監督の下で、堅牢なエージェント安全性への実践的な道であると示唆している。
関連論文リスト
- Less Approximates More: Harmonizing Performance and Confidence Faithfulness via Hybrid Post-Training for High-Stakes Tasks [52.81286869496811]
大規模な言語モデルは、自信を持って不正確な推論が現実世界の害を引き起こすような、ハイテイクなタスクにますますデプロイされている。
内的フィードバックからの教師なし強化学習と推論・トラス誘導型推論蒸留を併用して協調的に最適化することを提案する。
PRG方式のメトリクスを用いてRDとRLIFを適応的に重み付けするハイブリッドポストトレーニングフレームワークであるHyTuningを紹介する。
論文 参考訳(メタデータ) (2026-04-09T16:50:11Z) - Beyond Fluency: Toward Reliable Trajectories in Agentic IR [0.0]
本論文は, 産業用エージェントシステムで観測された故障モードを合成する。
安全なデプロイメントには、エンドポイントの正確性を超えて、軌道の整合性と因果属性に移行する必要がある、と我々は主張する。
論文 参考訳(メタデータ) (2026-04-05T21:20:57Z) - Beyond Content Safety: Real-Time Monitoring for Reasoning Vulnerabilities in Large Language Models [14.927545906619295]
大規模言語モデルは、複雑なタスクを解決するために明示的なチェーン・オブ・シンク(CoT)推論にますます依存している。
LLMの安全性に関する既存の研究は、コンテンツ安全性に焦点を当てている。
我々は、推論の安全性をセキュリティの側面として認識する:モデルの推論の軌道が論理的に一貫したものであるという要求。
論文 参考訳(メタデータ) (2026-03-26T13:08:56Z) - ICON: Indirect Prompt Injection Defense for Agents based on Inference-Time Correction [24.416258744287166]
ICONは、タスクの連続性を維持しながら攻撃を中和する、調査と軽減のためのフレームワークである。
ICONは競争力のある0.4%のASRを達成し、商業グレード検出器と一致し、50%以上のタスクユーティリティーゲインを得る。
論文 参考訳(メタデータ) (2026-02-24T09:13:05Z) - RoboSafe: Safeguarding Embodied Agents via Executable Safety Logic [56.38397499463889]
視覚言語モデル(VLM)を利用するエージェントは、複雑な現実世界のタスクを実行する能力がますます高まっている。
しかし、安全でない行動を引き起こす可能性のある危険な指示に弱いままである。
提案するRoboSafeは,実行可能述語ベースの安全ロジックを通じて,エージェントを具体化するためのランタイムセーフガードである。
論文 参考訳(メタデータ) (2025-12-24T15:01:26Z) - Towards Safe Reasoning in Large Reasoning Models via Corrective Intervention [53.25106308403173]
既存の手法は、安全推論の独特な重要性を軽視し、信頼性を損なうとともに、悪質なユーザに対して安全でない推論がアクセス可能で、悪質なユーザによって悪用された場合、アプリケーションに潜在的なリスクを生じさせることを示す。
我々は、安全トリガー付きコンプライアンスステップを代入し、強い信号による優先学習のためのペアを構築することで、安全推論を強制するアライメント手法であるIntervened Preference Optimization (IPO)を提案する。
論文 参考訳(メタデータ) (2025-09-29T07:41:09Z) - LatentGuard: Controllable Latent Steering for Robust Refusal of Attacks and Reliable Response Generation [4.29885665563186]
LATENTGUARDは、行動アライメントと教師付き潜在空間制御を組み合わせて、解釈可能で正確な安全操縦を行うフレームワークである。
本研究は, 実用性を損なうことなく, 安全性制御性と応答解釈性の両方を向上することを示す。
論文 参考訳(メタデータ) (2025-09-24T07:31:54Z) - ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [64.93140713419561]
大型推論モデル (LRM) は、Chain-of-Thought (CoT) による複雑な推論タスクで強く機能するが、しばしば冗長な出力に悩まされる。
既存の微調整ベースの圧縮手法は、ポストホックプルーニングを動作させるか、コヒーレンスを推論する破壊を危険にさらすか、サンプリングベースの選択に依存するかのいずれかである。
ConCISEは、簡潔な推論連鎖を生成するために設計されたフレームワークであり、信頼注入を統合して推論の信頼性を高める。
論文 参考訳(メタデータ) (2025-05-08T01:40:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。