論文の概要: Reflection-Driven Control for Trustworthy Code Agents
- arxiv url: http://arxiv.org/abs/2512.21354v1
- Date: Mon, 22 Dec 2025 00:27:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-29 20:48:41.753782
- Title: Reflection-Driven Control for Trustworthy Code Agents
- Title(参考訳): 信頼できるコードエージェントのための反射駆動制御
- Authors: Bin Wang, Jiazheng Quan, Xingrui Yu, Hansen Hu, Yuhao, Ivor Tsang,
- Abstract要約: 本稿では,汎用エージェントアーキテクチャにシームレスに統合可能なプラグイン可能な制御モジュールであるReflection-Driven Controlを紹介する。
反射駆動制御は、ポストホックパッチからエージェント自身の推論プロセスにおける明示的なステップに"自己回帰"を上昇させる。
我々は、リフレクション駆動制御が生成されたコードのセキュリティとポリシーのコンプライアンスを大幅に改善することを示します。
- 参考スコア(独自算出の注目度): 6.312627213469401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contemporary large language model (LLM) agents are remarkably capable, but they still lack reliable safety controls and can produce unconstrained, unpredictable, and even actively harmful outputs. To address this, we introduce Reflection-Driven Control, a standardized and pluggable control module that can be seamlessly integrated into general agent architectures. Reflection-Driven Control elevates "self-reflection" from a post hoc patch into an explicit step in the agent's own reasoning process: during generation, the agent continuously runs an internal reflection loop that monitors and evaluates its own decision path. When potential risks are detected, the system retrieves relevant repair examples and secure coding guidelines from an evolving reflective memory, injecting these evidence-based constraints directly into subsequent reasoning steps. We instantiate Reflection-Driven Control in the setting of secure code generation and systematically evaluate it across eight classes of security-critical programming tasks. Empirical results show that Reflection-Driven Control substantially improves the security and policy compliance of generated code while largely preserving functional correctness, with minimal runtime and token overhead. Taken together, these findings indicate that Reflection-Driven Control is a practical path toward trustworthy AI coding agents: it enables designs that are simultaneously autonomous, safer by construction, and auditable.
- Abstract(参考訳): 現代の大規模言語モデル(LLM)エージェントは驚くほど能力があるが、信頼性に欠けており、制約のない、予測不能で、積極的に有害な出力を生成できる。
これを解決するために,汎用エージェントアーキテクチャにシームレスに統合可能な,標準化およびプラグイン可能なコントロールモジュールであるReflection-Driven Controlを導入する。
リフレクション駆動制御(Reflection-Driven Control)は、ポストホックパッチからエージェント自身の推論プロセスにおける明示的なステップへと"自己回帰"を上昇させる。
潜在的なリスクが検出されると、システムは関連する修復例を検索し、進化する反射メモリから安全なコーディングガイドラインを取得し、これらのエビデンスに基づく制約を直接後続の推論ステップに注入する。
セキュアなコード生成の設定でリフレクション駆動制御をインスタンス化し、8つのクラスでセキュリティクリティカルなプログラミングタスクを体系的に評価します。
実証的な結果から、リフレクション駆動制御は、最小限のランタイムとトークンオーバーヘッドで、機能的正しさを保ちながら、生成されたコードのセキュリティとポリシーのコンプライアンスを大幅に改善することを示している。
これらの結果は、リフレクション駆動制御が信頼できるAIコーディングエージェントへの実践的な道であることを示している。
関連論文リスト
- RoboSafe: Safeguarding Embodied Agents via Executable Safety Logic [56.38397499463889]
視覚言語モデル(VLM)を利用するエージェントは、複雑な現実世界のタスクを実行する能力がますます高まっている。
しかし、安全でない行動を引き起こす可能性のある危険な指示に弱いままである。
提案するRoboSafeは,実行可能述語ベースの安全ロジックを通じて,エージェントを具体化するためのランタイムセーフガードである。
論文 参考訳(メタデータ) (2025-12-24T15:01:26Z) - Adaptive Attacks on Trusted Monitors Subvert AI Control Protocols [80.68060125494645]
プロトコルとモニタモデルを知っている信頼できないモデルによるアダプティブアタックについて検討する。
我々は、攻撃者がモデル出力に公知またはゼロショットプロンプトインジェクションを埋め込む単純な適応攻撃ベクトルをインスタンス化する。
論文 参考訳(メタデータ) (2025-10-10T15:12:44Z) - Policy-as-Prompt: Turning AI Governance Rules into Guardrails for AI Agents [0.19336815376402716]
我々は、構造化されていない設計成果物(RD、TDD、コードなど)を検証可能なランタイムガードレールに変換する規制機械学習フレームワークを導入します。
Promptメソッドとしての私たちのポリシーは、これらのドキュメントを読み、ソースリンクされたポリシーツリーを構築するためのリスクコントロールです。
システムは最小限の特権とデータ最小化を強制するために構築される。
論文 参考訳(メタデータ) (2025-09-28T17:36:52Z) - A Survey on Autonomy-Induced Security Risks in Large Model-Based Agents [45.53643260046778]
大規模言語モデル(LLM)の最近の進歩は、自律型AIエージェントの台頭を触媒している。
これらの大きなモデルエージェントは、静的推論システムからインタラクティブなメモリ拡張エンティティへのパラダイムシフトを示す。
論文 参考訳(メタデータ) (2025-06-30T13:34:34Z) - DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents [52.92354372596197]
大規模言語モデル(LLM)は、強力な推論と計画能力のため、エージェントシステムの中心となってきています。
この相互作用は、外部ソースからの悪意のある入力がエージェントの振る舞いを誤解させる可能性がある、インジェクション攻撃のリスクも引き起こす。
本稿では,信頼に値するエージェントシステムのための動的ルールベースの分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T05:01:09Z) - A Novel Approach to Identify Security Controls in Source Code [4.598579706242066]
本稿では,一般的なセキュリティ制御の包括的リストを列挙し,それぞれにデータセットを作成する。
最新のNLP技術であるBERT(Bidirectional Representations from Transformers)とTactic Detector(Tactic Detector)を使って、セキュリティコントロールを高い信頼性で識別できることを示しています。
論文 参考訳(メタデータ) (2023-07-10T21:14:39Z) - Value Functions are Control Barrier Functions: Verification of Safe
Policies using Control Theory [46.85103495283037]
本稿では,制御理論から学習値関数への検証手法の適用方法を提案する。
我々は値関数と制御障壁関数の間の関係を確立する原定理を定式化する。
我々の研究は、RLベースの制御システムの汎用的でスケーラブルで検証可能な設計のための公式なフレームワークに向けた重要な一歩である。
論文 参考訳(メタデータ) (2023-06-06T21:41:31Z) - Safe Reinforcement Learning via Curriculum Induction [94.67835258431202]
安全クリティカルなアプリケーションでは、自律エージェントはミスが非常にコストがかかる環境で学ぶ必要がある。
既存の安全な強化学習手法は、エージェントが危険な状況を避けるために、事前にエージェントを頼りにしている。
本稿では,エージェントが自動インストラクターの指導の下で学習する,人間の指導にインスパイアされた代替手法を提案する。
論文 参考訳(メタデータ) (2020-06-22T10:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。