論文の概要: Omission Constraints Decay While Commission Constraints Persist in Long-Context LLM Agents
- arxiv url: http://arxiv.org/abs/2604.20911v1
- Date: Wed, 22 Apr 2026 01:25:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.087494
- Title: Omission Constraints Decay While Commission Constraints Persist in Long-Context LLM Agents
- Title(参考訳): 長期 LLM エージェントにおける委員会の規制が持続する一方, 排ガス規制は減少する
- Authors: Yeran Gamage,
- Abstract要約: 制限型制約は、要求型制約が持続する間、文脈圧力の下で崩壊する。
この非対称性をSRD(Security-Recall Divergence)と呼ぶ。
トークンマッチングパディング制御を持つ2つのモデルでは、スキーマセマンティックコンテンツは希釈効果の62-100%を占める。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM agents deployed in production operate under operator-defined behavioral policies (system-prompt instructions such as prohibitions on credential disclosure, data exfiltration, and unauthorized output) that safety evaluations assume hold throughout a conversation. Prohibition-type constraints decay under context pressure while requirement-type constraints persist; we term this asymmetry Security-Recall Divergence (SRD). In a 4,416-trial three-arm causal study across 12 models and 8 providers at six conversation depths, omission compliance falls from 73% at turn 5 to 33% at turn 16 while commission compliance holds at 100% (Mistral Large 3, $p < 10^{-33}$). In the two models with token-matched padding controls, schema semantic content accounts for 62-100% of the dilution effect. Re-injecting constraints before the per-model Safe Turn Depth (STD) restores compliance without retraining. Production security policies consist of prohibitions such as never revealing credentials, never executing untrusted code, and never forwarding user data. Commission-type audit signals remain healthy while omission constraints have already failed, leaving the failure invisible to standard monitoring.
- Abstract(参考訳): LLMエージェントは、オペレータが定義した行動ポリシー(クレデンシャル開示の禁止、データ流出、不正な出力など)の下で運用され、安全評価が会話を通して保持される。
この非対称性をSRD(Security-Recall Divergence)と呼ぶ。
12のモデルと8のプロバイダを6つの会話深度で比較した4,416件の3本腕因果調査では、省略コンプライアンスはターン5で73%からターン16で33%に減少し、手数料コンプライアンスは100%(Mistral Large 3, $p < 10^{-33}$)である。
トークンマッチングパディング制御を持つ2つのモデルでは、スキーマセマンティックコンテンツは希釈効果の62-100%を占める。
モデル毎のSafe Turn Depth(STD)前に制約を再注入することで、再トレーニングなしでコンプライアンスを回復する。
プロダクションセキュリティポリシは、認証情報の公開の禁止、信頼できないコードの実行の禁止、ユーザデータの転送の禁止などで構成されている。
委員会方式の監査信号は健在だが、省略の制約はすでに失敗しており、失敗は通常の監視には見えないままである。
関連論文リスト
- CCTU: A Benchmark for Tool Use under Complex Constraints [66.87622847854337]
複雑な制約下での大規模言語モデル(LLM)を評価するためのベンチマークであるCCTUを紹介する。
ベンチマークは、さまざまなツール使用シナリオに対して、慎重にキュレートされ、挑戦的なテストケースが200から成っている。
ステップレベルの検証を行い、コンプライアンスを強制する実行可能な制約検証モジュールを開発する。
論文 参考訳(メタデータ) (2026-03-16T14:05:13Z) - AgentDrift: Unsafe Recommendation Drift Under Tool Corruption Hidden by Ranking Metrics in LLM Agents [2.995458991057093]
クリーンで汚染されたツール出力条件下で、実際の財務対話を再生するペアトラジェクトリプロトコルを導入する。
評価盲点パターンを観察し, 推奨品質は汚染下で保存される。
物語のみの腐敗(バイアス付き見出し、数値操作なし)でさえ、一貫性モニタを完全に回避しながら大きなドリフトを引き起こします。
論文 参考訳(メタデータ) (2026-03-13T01:54:00Z) - Internal Safety Collapse in Frontier Large Language Models [65.00730294617382]
この研究は、フロンティア大言語モデル(LLM)における重要な障害モードを特定する。
特定のタスク条件下では、モデルは有害なコンテンツを連続的に生成し、そうでなければ良質なタスクを実行する状態に入る。
有害なコンテンツを生成することが唯一有効な完了であるドメインタスクを通じてISCをトリガーするフレームワークであるTVDを紹介する。
論文 参考訳(メタデータ) (2026-03-04T12:55:34Z) - Health-ORSC-Bench: A Benchmark for Measuring Over-Refusal and Safety Completion in Health Context [82.32380418146656]
Health-ORSC-Benchは、医療におけるtextbfOver-Refusalと textbfSafe Completionの品質を測定するために設計された最初の大規模ベンチマークである。
私たちのフレームワークは、人間の検証を備えた自動パイプラインを使用して、さまざまなレベルの意図の曖昧さでモデルをテストします。
Health-ORSC-Benchは、次世代の医療AIアシスタントを調整するための厳格な標準を提供する。
論文 参考訳(メタデータ) (2026-01-25T01:28:52Z) - Replayable Financial Agents: A Determinism-Faithfulness Assurance Harness for Tool-Using LLM Agents [0.7699235580548228]
LLMエージェントは、規制監査のリプレイに苦労する: トランザクションフラグ付き決定を同じ入力で再現するように要求された場合、ほとんどのデプロイメントは一貫性のある結果を返すことができません。
本稿では,金融サービスに展開するツール利用エージェントにおけるトラジェクティブ決定性およびエビデンス条件の忠実度を測定するためのフレームワークであるDFAHを紹介する。
論文 参考訳(メタデータ) (2026-01-17T19:47:55Z) - Safe and Compliant Cross-Market Trade Execution via Constrained RL and Zero-Knowledge Audits [0.5586191108738564]
本稿では、厳格なコンプライアンスの実施と実行品質のバランスをとるクロスマーケットアルゴリズムトレーディングシステムを提案する。
アーキテクチャは、高レベルプランナー、強化学習実行エージェント、独立コンプライアンスエージェントを含む。
対t検定による95%信頼度レベルへの影響を報告し,CVaRによる尾部リスクの検討を行った。
論文 参考訳(メタデータ) (2025-10-06T15:52:12Z) - Towards Safety Reasoning in LLMs: AI-agentic Deliberation for Policy-embedded CoT Data Creation [70.62656296780074]
本稿では,新しいデータ生成法であるAIDSAFE(Agenic Iterative Deliberation for Safety Reasoning)を提案する。
AIDSAFEにおけるデータリファインダーの段階は、反復的、冗長的、詐欺的思考を排除し、高品質なアウトプットを保証する。
本評価は, AIDSAFEによるCoTsが, より優れた政策順守と推論品質を実現することを示すものである。
論文 参考訳(メタデータ) (2025-05-27T21:34:40Z) - Safety Pretraining: Toward the Next Generation of Safe AI [68.99129474671282]
モデルの安全性を最初から構築する,データ中心の事前トレーニングフレームワークを提案する。
我々のフレームワークは、セーフティフィルタリング、セーフティリフレージング、Native Refusal、Harmfulness-Tag Annotated Pretrainingの4つの重要なステップで構成されています。
我々の安全事前訓練モデルでは、一般的な劣化タスクのパフォーマンスを伴わない標準LLM安全性ベンチマークにおいて、攻撃成功率を38.8%から8.4%に下げている。
論文 参考訳(メタデータ) (2025-04-23T17:58:08Z) - SaFormer: A Conditional Sequence Modeling Approach to Offline Safe
Reinforcement Learning [64.33956692265419]
オフラインセーフなRLは、現実世界のアプリケーションにエージェントをデプロイする上で、非常に実用的な関連性を持っています。
そこで我々は,SaFormerと呼ばれる新しいオフラインセーフなRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-01-28T13:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。