論文の概要: Analyzing and Internalizing Complex Policy Documents for LLM Agents
- arxiv url: http://arxiv.org/abs/2510.11588v1
- Date: Mon, 13 Oct 2025 16:30:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.455505
- Title: Analyzing and Internalizing Complex Policy Documents for LLM Agents
- Title(参考訳): LLMエージェントのための複合政策文書の分析と内部化
- Authors: Jiateng Liu, Zhenhailong Wang, Xiaojiang Huang, Yingjie Li, Xing Fan, Xiang Li, Chenlei Guo, Ruhi Sarikaya, Heng Ji,
- Abstract要約: 大規模言語モデル(LLM)ベースのエージェントシステムは、多様なビジネスルールをコードするコンテキスト内ポリシー文書に依存している。
これは、パフォーマンスを保ちながら、ポリシー文書をモデルプリエントに組み込む内部化手法の開発を動機付けます。
CC-Genは4つのレベルにまたがる制御可能な複雑度を持つエージェントベンチマークジェネレータである。
- 参考スコア(独自算出の注目度): 53.14898416858099
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM)-based agentic systems rely on in-context policy documents encoding diverse business rules. As requirements grow, these documents expand rapidly, causing high computational overhead. This motivates developing internalization methods that embed policy documents into model priors while preserving performance. Prior prompt compression work targets generic prompts, but agentic policy documents span multiple complexity levels and require deeper reasoning, making internalization harder. We introduce CC-Gen, an agentic benchmark generator with Controllable Complexity across four levels, enabling systematic evaluation of agents' ability to handle complexity and offering a unified framework for assessing policy internalization. Our analysis shows that complex policy specifications governing workflows pose major reasoning challenges. Supporting internalization with gold user agent interaction trajectories containing chain-of-thought (CoT) annotations via supervised fine-tuning (SFT) is data-intensive and degrades sharply as policy complexity increases. To mitigate data and reasoning burdens, we propose Category-Aware Policy Continued Pretraining (CAP-CPT). Our automated pipeline parses policy documents to extract key specifications, grouping them into factual, behavioral, and conditional categories, and isolating complex conditions that drive workflow complexity. This guides targeted data synthesis and enables agents to internalize policy information through an autoregressive pretraining loss. Experiments show CAP-CPT improves SFT baselines in all settings, with up to 41% and 22% gains on Qwen-3-32B, achieving 97.3% prompt length reduction on CC-Gen and further enhancing tau-Bench with minimal SFT data.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのエージェントシステムは、多様なビジネスルールをコードするコンテキスト内ポリシー文書に依存している。
要求が大きくなるにつれて、これらの文書は急速に拡大し、高い計算オーバーヘッドを引き起こす。
これは、パフォーマンスを保ちながら、ポリシー文書をモデルプリエントに組み込む内部化手法の開発を動機付けます。
事前のプロンプト圧縮作業は、ジェネリックプロンプトをターゲットとしているが、エージェントポリシー文書は、複数の複雑さレベルにまたがり、より深い推論を必要とするため、内部化が難しくなる。
CC-Genは,コントロール可能な複雑度を持つエージェントベンチマークジェネレータで,複雑度を扱うエージェントの能力を体系的に評価し,政策内部化を評価するための統一的なフレームワークを提供する。
我々の分析は、ワークフローを管理する複雑なポリシー仕様が大きな理由付けの課題を引き起こすことを示している。
教師付き微調整(SFT)によるチェーンオブ思想(CoT)アノテーションを含む金のユーザエージェントインタラクショントラジェクトリによる内部化のサポートはデータ集約的であり、ポリシーの複雑さが増大するにつれて大幅に低下する。
データの緩和と推論の負担を軽減するため,CAP-CPT(Calegory-Aware Policy Continued Pretraining)を提案する。
私たちの自動パイプラインはポリシー文書を解析し、主要な仕様を抽出し、それらを事実、行動、条件のカテゴリに分類し、ワークフローの複雑さを駆動する複雑な条件を分離します。
これにより、ターゲットとなるデータ合成をガイドし、エージェントが自己回帰的事前学習損失を通じてポリシー情報を内部化することができる。
実験の結果、CAP-CPTは全ての設定でSFTベースラインを改善し、Qwen-3-32Bでは最大41%と22%のゲインを獲得し、CC-Genでは97.3%の高速化、最小のSFTデータではTau-Benchをさらに強化した。
関連論文リスト
- AgentAsk: Multi-Agent Systems Need to Ask [26.13279490836716]
大規模言語モデル(LLM)上に構築されたマルチエージェントシステムは、協調的な分業による問題解決能力の向上を約束する。
我々はAgentAskを提案する。AgentAskは軽量でプラグ・アンド・プレイの明確化モジュールで、すべてのエージェント間メッセージを潜在的な障害点として扱い、エラーの伝播を抑えるのに必要最小限の質問を挿入する。
AgentAskは、公開マルチエージェント実装の精度と堅牢性を継続的に改善し、オーバーヘッドを最小限に抑え、レイテンシと余分なコストを5%以下に抑える。
論文 参考訳(メタデータ) (2025-10-08T22:36:05Z) - Transparent, Evaluable, and Accessible Data Agents: A Proof-of-Concept Framework [0.0]
本稿では、AIエージェントの開発と評価のためのモジュール型コンポーネントベースのアーキテクチャについて述べる。
このシステムは、技術的でないユーザが複雑なデータウェアハウスと対話できるようにすることによって、データアクセシビリティにおける中核的な課題に対処する。
設計の要点は、多層推論フレームワークを通じて達成される透明な意思決定へのコミットメントである。
論文 参考訳(メタデータ) (2025-09-28T23:54:41Z) - Query-Centric Diffusion Policy for Generalizable Robotic Assembly [35.15799846535565]
本稿では,オブジェクト,コンタクトポイント,スキル情報などのクエリを活用することで,高レベルの計画と低レベルの制御を橋渡しする階層型フレームワークを提案する。
我々はFurnitureBenchのシミュレーションと実世界の設定の両方において総合的な実験を行い、技術精度の向上と長期成功率の向上を実証した。
論文 参考訳(メタデータ) (2025-09-23T06:10:46Z) - Enterprise AI Must Enforce Participant-Aware Access Control [9.68210477539956]
大規模言語モデル(LLM)は、複数のユーザと対話し、センシティブな内部データに基づいてトレーニングあるいは微調整されるエンタープライズ環境に、ますます多くデプロイされている。
敵は、現在の微調整アーキテクチャやRAGアーキテクチャを利用して、アクセス制御の強制力の欠如を活用して機密情報を漏洩することができることを示す。
本稿では, LLM による学習, 検索, 生成に使用されるコンテンツは, インセンティブに関わるユーザに対して明示的に認証される,という原則に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-18T04:30:49Z) - Rethinking Testing for LLM Applications: Characteristics, Challenges, and a Lightweight Interaction Protocol [83.83217247686402]
大言語モデル(LLM)は、単純なテキストジェネレータから、検索強化、ツール呼び出し、マルチターンインタラクションを統合する複雑なソフトウェアシステムへと進化してきた。
その固有の非決定主義、ダイナミズム、文脈依存は品質保証に根本的な課題をもたらす。
本稿では,LLMアプリケーションを3層アーキテクチャに分解する: textbftextitSystem Shell Layer, textbftextitPrompt Orchestration Layer, textbftextitLLM Inference Core。
論文 参考訳(メタデータ) (2025-08-28T13:00:28Z) - On Automating Security Policies with Contemporary LLMs [3.47402794691087]
本稿では、テキスト内学習と検索強化生成(RAG)の革新的組み合わせにより、攻撃緩和ポリシーコンプライアンスを自動化するフレームワークを提案する。
STIXv2 フォーマットと Windows API ドキュメントで公開されている CTI ポリシを用いて実施した実証評価では,RAG ベースラインに比べて精度,リコール,F1 スコアの大幅な向上が示されている。
論文 参考訳(メタデータ) (2025-06-05T09:58:00Z) - AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios [51.46347732659174]
LLM(Large Language Models)は、現実世界のエージェントアプリケーションにおいて高度な機能を示す。
AgentIFは、エージェントシナリオでLLM命令に従う能力を体系的に評価する最初のベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T17:31:10Z) - Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity [59.57065228857247]
Retrieval-augmented Large Language Models (LLMs) は、質問回答(QA)のようなタスクにおける応答精度を高めるための有望なアプローチとして登場した。
本稿では,クエリの複雑さに基づいて,LLMの最適戦略を動的に選択できる適応型QAフレームワークを提案する。
オープンドメインのQAデータセットを用いて、複数のクエリの複雑さを網羅し、QAシステムの全体的な効率性と精度を高めることを示す。
論文 参考訳(メタデータ) (2024-03-21T13:52:30Z) - Distributed-Training-and-Execution Multi-Agent Reinforcement Learning
for Power Control in HetNet [48.96004919910818]
We propose a multi-agent Deep reinforcement learning (MADRL) based power control scheme for the HetNet。
エージェント間の協調を促進するために,MADRLシステムのためのペナルティベースQラーニング(PQL)アルゴリズムを開発した。
このように、エージェントのポリシーは、他のエージェントによってより容易に学習でき、より効率的なコラボレーションプロセスをもたらす。
論文 参考訳(メタデータ) (2022-12-15T17:01:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。