論文の概要: POLARIS: Typed Planning and Governed Execution for Agentic AI in Back-Office Automation
- arxiv url: http://arxiv.org/abs/2601.11816v1
- Date: Fri, 16 Jan 2026 22:38:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.331896
- Title: POLARIS: Typed Planning and Governed Execution for Agentic AI in Back-Office Automation
- Title(参考訳): POLARIS: バックエンド自動化におけるエージェントAIのためのタイプドプランニングとGoverned Execution
- Authors: Zahra Moslemi, Keerthi Koneru, Yen-Ting Lee, Sheethal Kumar, Ramesh Radhakrishnan,
- Abstract要約: POLARISは、自動化をタイプドプラン合成として扱い、LLMエージェント上での検証された実行として扱う、管理されたオーケストレーションフレームワークである。
実証的には、POLARISはSROIEデータセット上で0.81のマイクロF1を達成し、制御された合成スイート上では、保存された監査トレイルによる異常ルーティングに対して0.95から1.00の精度を達成する。
- 参考スコア(独自算出の注目度): 0.28055179094637683
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Enterprise back office workflows require agentic systems that are auditable, policy-aligned, and operationally predictable, capabilities that generic multi-agent setups often fail to deliver. We present POLARIS (Policy-Aware LLM Agentic Reasoning for Integrated Systems), a governed orchestration framework that treats automation as typed plan synthesis and validated execution over LLM agents. A planner proposes structurally diverse, type checked directed acyclic graphs (DAGs), a rubric guided reasoning module selects a single compliant plan, and execution is guarded by validator gated checks, a bounded repair loop, and compiled policy guardrails that block or route side effects before they occur. Applied to document centric finance tasks, POLARIS produces decision grade artifacts and full execution traces while reducing human intervention. Empirically, POLARIS achieves a micro F1 of 0.81 on the SROIE dataset and, on a controlled synthetic suite, achieves 0.95 to 1.00 precision for anomaly routing with preserved audit trails. These evaluations constitute an initial benchmark for governed Agentic AI. POLARIS provides a methodological and benchmark reference for policy-aligned Agentic AI. Keywords Agentic AI, Enterprise Automation, Back-Office Tasks, Benchmarks, Governance, Typed Planning, Evaluation
- Abstract(参考訳): エンタープライズのバックオフィスワークフローには、監査可能なエージェントシステム、ポリシ整合性、運用上の予測可能な、汎用的なマルチエージェントセットアップがデリバリに失敗することが多い機能が必要です。
提案するPOLARIS(Policy-Aware LLM Agentic Reasoning for Integrated Systems)は,自動化を型付き計画合成として扱い,LLMエージェント上での実行を検証するオーケストレーションフレームワークである。
プランナーは、構造的に多様でタイプチェックされた非循環グラフ(DAG)を提案し、ルーリックガイド付き推論モジュールは、単一の準拠プランを選択し、バリケータゲートチェック、バウンド修理ループ、コンパイルされたポリシーガードレールによって実行をガードする。
ドキュメント中心の財務タスクに適用されるPOLARISは、人間の介入を減らすとともに、決定グレードのアーティファクトと完全な実行トレースを生成する。
実証的には、POLARISはSROIEデータセット上で0.81のマイクロF1を達成し、制御された合成スイート上では、保存された監査トレイルによる異常ルーティングに対して0.95から1.00の精度を達成する。
これらの評価は、管理されたエージェントAIの最初のベンチマークを構成する。
POLARISはポリシーに準拠したエージェントAIのための方法論とベンチマークのリファレンスを提供する。
キーワード エージェントAI、エンタープライズ自動化、バックエンドタスク、ベンチマーク、ガバナンス、型付き計画、評価
関連論文リスト
- AgentGuardian: Learning Access Control Policies to Govern AI Agent Behavior [20.817336331051752]
AgentGuardianは、コンテキスト対応アクセス制御ポリシーを強制することによって、AIエージェントの操作を統制し、保護する。
正常なエージェント機能を保持しながら、悪意のある入力や誤解を招く入力を効果的に検出する。
論文 参考訳(メタデータ) (2026-01-15T14:33:36Z) - Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem [90.17610617854247]
本稿では,エージェントモデルの生産パイプラインを最適化する基盤インフラであるエージェント学習エコシステム(ALE)を紹介する。
ALEは、重量最適化のためのトレーニング後のフレームワークであるROLL、軌道生成のためのサンドボックス環境マネージャであるROCK、効率的なコンテキストエンジニアリングのためのエージェントフレームワークであるiFlow CLIの3つのコンポーネントで構成されている。
ROMEはALEが基盤として100万件以上のトラジェクトリをトレーニングしたオープンソースエージェントです。
論文 参考訳(メタデータ) (2025-12-31T14:03:39Z) - Alita-G: Self-Evolving Generative Agent for Agent Generation [54.49365835457433]
汎用エージェントをドメインエキスパートに変換するフレームワークであるALITA-Gを提案する。
このフレームワークでは、ジェネラリストエージェントが対象ドメインタスクのキュレートされたスイートを実行する。
計算コストを削減しながら、大きな利益を得ることができます。
論文 参考訳(メタデータ) (2025-10-27T17:59:14Z) - Are Agents Just Automata? On the Formal Equivalence Between Agentic AI and the Chomsky Hierarchy [4.245979127318219]
本稿では,現代エージェントAIシステムのアーキテクチャクラスと階層の抽象機械との形式的等価性を確立する。
単純な反射エージェントは有限オートマタと等価であり、階層的なタスク分解エージェントはプッシュダウンオートマタと等価であり、リフレクションに読み取り/書き込み可能なメモリを使用するエージェントはTMと等価であることを示す。
論文 参考訳(メタデータ) (2025-10-27T16:22:02Z) - What Is Your Agent's GPA? A Framework for Evaluating Agent Goal-Plan-Action Alignment [3.5583478152586756]
Agent GPAは、目標を設定し、計画を立て、アクションを実行するエージェントの運用ループに基づいた評価パラダイムである。
フレームワークには、ゴールフルフィルメント、論理一貫性、実行効率、プラン品質、プラン順守の5つの評価指標が含まれている。
論文 参考訳(メタデータ) (2025-10-09T22:40:19Z) - Policy-as-Prompt: Turning AI Governance Rules into Guardrails for AI Agents [0.19336815376402716]
我々は、構造化されていない設計成果物(RD、TDD、コードなど)を検証可能なランタイムガードレールに変換する規制機械学習フレームワークを導入します。
Promptメソッドとしての私たちのポリシーは、これらのドキュメントを読み、ソースリンクされたポリシーツリーを構築するためのリスクコントロールです。
システムは最小限の特権とデータ最小化を強制するために構築される。
論文 参考訳(メタデータ) (2025-09-28T17:36:52Z) - DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents [52.92354372596197]
大規模言語モデル(LLM)は、強力な推論と計画能力のため、エージェントシステムの中心となってきています。
この相互作用は、外部ソースからの悪意のある入力がエージェントの振る舞いを誤解させる可能性がある、インジェクション攻撃のリスクも引き起こす。
本稿では,信頼に値するエージェントシステムのための動的ルールベースの分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T05:01:09Z) - HADA: Human-AI Agent Decision Alignment Architecture [0.0]
HADAはプロトコルとフレームワークのリファレンスアーキテクチャであり、大きな言語モデル(LLM)エージェントとレガシーアルゴリズムの両方を組織的目標と値に一致させる。
技術的および非技術的アクターは、戦略的、戦術的、リアルタイムな地平線を越えて、あらゆる決定をクエリ、ステア、監査、または競合することができる。
論文 参考訳(メタデータ) (2025-06-01T14:04:52Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - Agent-Oriented Planning in Multi-Agent Systems [54.429028104022066]
マルチエージェントシステムにおけるエージェント指向計画のための新しいフレームワークであるAOPを提案する。
本研究では, エージェント指向計画の3つの重要な設計原則, 可解性, 完全性, 非冗長性を明らかにする。
大規模実験は,マルチエージェントシステムにおける単一エージェントシステムと既存の計画戦略と比較して,現実の問題を解決する上でのAOPの進歩を実証している。
論文 参考訳(メタデータ) (2024-10-03T04:07:51Z) - AutoAct: Automatic Agent Learning from Scratch for QA via Self-Planning [54.47116888545878]
AutoActはQAのための自動エージェント学習フレームワークである。
大規模アノテートデータやクローズドソースモデルからの合成計画軌道は依存していない。
論文 参考訳(メタデータ) (2024-01-10T16:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。