論文の概要: Bounded Autonomy for Enterprise AI: Typed Action Contracts and Consumer-Side Execution
- arxiv url: http://arxiv.org/abs/2604.14723v1
- Date: Thu, 16 Apr 2026 07:33:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.783
- Title: Bounded Autonomy for Enterprise AI: Typed Action Contracts and Consumer-Side Execution
- Title(参考訳): エンタープライズAIのための境界付き自律性 - タイプドアクション契約とコンシューマ側の実行
- Authors: Sarmad Sohail, Ghufran Haider,
- Abstract要約: 大規模言語モデルは、エンタープライズソフトウェアに対する自然なテナントインターフェースとしてますます使われているが、システムオペレータとしての使用は安全ではない。
本稿では,言語モデルが意図を解釈し,行動を提案するような有界自律アーキテクチャを提案する。
デプロイされた多言語エンタープライズアプリケーションのアーキテクチャを、手動操作、安全層を無効にした非制約AI、フルバウンド自律性という3つの条件で評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly used as natural-language interfaces to enterprise software, but their direct use as system operators remains unsafe. Model errors can propagate into unauthorized actions, malformed requests, cross-workspace execution, and other costly failures. We argue this is primarily an execution architecture problem. We present a bounded-autonomy architecture in which language models may interpret intent and propose actions, but all executable behavior is constrained by typed action contracts, permission-aware capability exposure, scoped context, validation before side effects, consumer-side execution boundaries, and optional human approval. The enterprise application remains the source of truth for business logic and authorization, while the orchestration engine operates over an explicit published actions manifest. We evaluate the architecture in a deployed multi-tenant enterprise application across three conditions: manual operation, unconstrained AI with safety layers disabled, and full bounded autonomy. Across 25 scenario trials spanning seven failure families, the bounded-autonomy system completed 23 of 25 tasks with zero unsafe executions, while the unconstrained configuration completed only 17 of 25. Two wrong-entity mutations escaped all consumer-contributed layers; only disambiguation and confirmation mechanisms intercept this class. Both AI conditions delivered 13-18x speedup over manual operation. Critically, removing safety layers made the system less useful: structured validation feedback guided the model to correct outcomes in fewer turns, while the unconstrained system hallucinated success. Several safety properties are structurally enforced by code and intercepted all targeted violations regardless of model output. The result is a practical, deployed architecture for making imperfect language models operationally useful in enterprise systems.
- Abstract(参考訳): 大規模言語モデルは、エンタープライズソフトウェアの自然言語インタフェースとしてますます使われているが、システムオペレーターとしての使用は安全ではない。
モデルエラーは、不正なアクション、不正なリクエスト、クロスワークスペースの実行、その他のコストのかかる障害に伝播する。
これは主に実行アーキテクチャの問題である、と私たちは主張する。
本稿では,言語モデルが意図を解釈し,アクションを提案する境界付き自律アーキテクチャを提案する。しかし,すべての実行動作は,型付きアクション契約,パーミッション対応機能露出,スコープ付きコンテキスト,副作用前の検証,コンシューマ側実行境界,オプションの人間承認などによって制約される。
エンタープライズアプリケーションは、ビジネスロジックと認可の真理の源であり、オーケストレーションエンジンは、明らかに公開されたアクションマニフェスト上で動作する。
デプロイされたマルチテナントエンタープライズアプリケーションのアーキテクチャを,手動操作,安全層を無効にした非制約AI,フルバウンド自律性という3つの条件で評価する。
7つの障害ファミリにまたがる25のシナリオ試行において、境界オートノミーシステムは25のタスクのうち23のタスクを、安全でない実行をゼロに完了し、制約のない構成は25の17のみを完了した。
2つの不正な突然変異は、消費者が分散したすべての層から逃れ、曖昧さと確認メカニズムだけがこのクラスを妨害した。
両方のAI条件は、マニュアル操作よりも13-18倍のスピードアップを実現した。
構造的検証フィードバックは、少ないターンで結果を修正するためにモデルをガイドし、制約のないシステムは成功を暗示した。
いくつかの安全性特性は、コードによって構造的に強制され、モデル出力に関係なく、対象とするすべての違反をインターセプトする。
その結果、エンタープライズシステムで不完全な言語モデルを運用的に有用なものにするための実用的でデプロイされたアーキテクチャが実現した。
関連論文リスト
- Parallax: Why AI Agents That Think Must Never Act [0.0]
本稿では,4つの原則に基づく自律型AI実行のパラダイムであるParallaxを紹介する。
本稿では、Goのオープンソースリファレンス実装であるOpenParallaxを紹介し、Assume-Compromise Evaluationを用いて評価する。
9つの攻撃カテゴリにおける280件の敵の試験ケースのうち、パララックスは98.9%の攻撃をブロックし、デフォルト設定ではゼロの偽陽性、最大セキュリティ設定では100%の攻撃をブロックした。
論文 参考訳(メタデータ) (2026-04-14T17:20:48Z) - Modeling and Simulation Based Engineering in the Context of Cyber-Physical Systems [51.82266520875928]
実行セマンティクスは、第一級のエンジニアリングエンティティとして扱われない。
モデリングとシミュレーションに基づくエンジニアリングは、正式な実行、実験的な実行、検証、アクティビティによる検証を交互に行う反復サイクルのエンジニアリングを組織する。
これらの応用は、フレームワークがCPSを超えて、明示的に定義された実行条件に依存するあらゆるシステムに一般化することを示している。
論文 参考訳(メタデータ) (2026-04-13T12:42:12Z) - A Physical Agentic Loop for Language-Guided Grasping with Execution-State Monitoring [5.437966695589128]
我々は、接地された実行状態上で動作する有界な実施エージェントとして言語誘導の把握を再構築する。
未修正の学習操作プリミティブをラップする物理エージェントループを導入する。
眼内カメラD405を用いた移動マニピュレータのループを検証した。
論文 参考訳(メタデータ) (2026-04-08T08:01:35Z) - A Trace-Based Assurance Framework for Agentic AI Orchestration: Contracts, Testing, and Governance [0.22940141855172028]
本稿では,Large Language Models (LLM) を用いたエージェントAIシステムの保証フレームワークを提案する。
実行は、明示的なステップとトレースコントラクトを備えたメッセージ・アクション・トレース(MAT)として実装される。
このフレームワークは、有界摂動に対する予算付き反例探索として定式化されたストレステストを含む。
論文 参考訳(メタデータ) (2026-03-18T10:23:48Z) - The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution [63.61358761489141]
LLM(Large Language Model)ベースのエージェントは、カスタマーサービス、Webナビゲーション、ソフトウェアエンジニアリングといった現実世界のアプリケーションで広く使われている。
本稿では,タスク結果に関係なく,エージェントの動作を駆動する内部要因を識別する,テキスト汎用エージェント属性のための新しいフレームワークを提案する。
標準ツールの使用やメモリ誘起バイアスのような微妙な信頼性リスクなど、さまざまなエージェントシナリオでフレームワークを検証する。
論文 参考訳(メタデータ) (2026-01-21T15:22:21Z) - CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents [60.98294016925157]
AIエージェントは、悪意のあるコンテンツがエージェントの行動をハイジャックして認証情報を盗んだり、金銭的損失を引き起こすような、インジェクション攻撃に弱い。
CUAのためのシングルショットプランニングでは、信頼できるプランナーが、潜在的に悪意のあるコンテンツを観察する前に、条件付きブランチで完全な実行グラフを生成する。
このアーキテクチャ分離は命令インジェクションを効果的に防止するが、ブランチステアリング攻撃を防ぐには追加の対策が必要であることを示す。
論文 参考訳(メタデータ) (2026-01-14T23:06:35Z) - TraceAegis: Securing LLM-Based Agents via Hierarchical and Behavioral Anomaly Detection [31.243042511018675]
エージェントの実行トレースを利用して潜在的な異常を検出する,プロファイランスに基づく分析フレームワークであるTraceAegisを提案する。
階層的制約と行動的制約の両方に対して実行トレースを検証することで、TraceAegisは異常な動作を効果的に検出することができる。
論文 参考訳(メタデータ) (2025-10-13T09:35:06Z) - CP-Agent: Agentic Constraint Programming [23.191983095692223]
自然言語問題記述を形式的制約モデルに変換することは、制約プログラミングにおける根本的な課題である。
以前のアプローチでは、所定のモデリングステップで固定され、かなりの数のベンチマーク問題に失敗していた。
固定パイプラインのない純粋なエージェント戦略を用いた新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-08-10T19:59:01Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - When Disagreements Elicit Robustness: Investigating Self-Repair Capabilities under LLM Multi-Agent Disagreements [56.29265568399648]
我々は、不一致が早期のコンセンサスを防ぎ、探索されたソリューション空間を拡張することを主張する。
タスククリティカルなステップの相違は、ソリューションパスのトポロジによってコラボレーションを損なう可能性がある。
論文 参考訳(メタデータ) (2025-02-21T02:24:43Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。