論文の概要: PASTA: A Scalable Framework for Multi-Policy AI Compliance Evaluation
- arxiv url: http://arxiv.org/abs/2601.11702v1
- Date: Fri, 16 Jan 2026 18:56:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.2931
- Title: PASTA: A Scalable Framework for Multi-Policy AI Compliance Evaluation
- Title(参考訳): PASTA: マルチプライスAIコンプライアンス評価のためのスケーラブルなフレームワーク
- Authors: Yu Yang, Ig-Jae Kim, Dongwook Yoon,
- Abstract要約: PASTAは4つのイノベーションを統合するスケーラブルなコンプライアンスツールである。
このシステムは、2分以内で5つの主要なポリシーを約3.99ドルで評価する。
ユーザ調査では、実践者が理解しやすく、実行可能なアウトプットを発見したことが確認された。
- 参考スコア(独自算出の注目度): 31.840303650445914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI compliance is becoming increasingly critical as AI systems grow more powerful and pervasive. Yet the rapid expansion of AI policies creates substantial burdens for resource-constrained practitioners lacking policy expertise. Existing approaches typically address one policy at a time, making multi-policy compliance costly. We present PASTA, a scalable compliance tool integrating four innovations: (1) a comprehensive model-card format supporting descriptive inputs across development stages; (2) a policy normalization scheme; (3) an efficient LLM-powered pairwise evaluation engine with cost-saving strategies; and (4) an interface delivering interpretable evaluations via compliance heatmaps and actionable recommendations. Expert evaluation shows PASTA's judgments closely align with human experts ($ρ\geq .626$). The system evaluates five major policies in under two minutes at approximately \$3. A user study (N = 12) confirms practitioners found outputs easy-to-understand and actionable, introducing a novel framework for scalable automated AI governance.
- Abstract(参考訳): AIシステムがより強力で普及するにつれて、AIコンプライアンスはますます重要になりつつある。
しかし、AIポリシーの急速な拡大は、政策の専門性に欠けるリソース制約のある実践者にとって、かなりの負担を生んでいる。
既存のアプローチは、通常、一度に1つのポリシーに対処する。
PASTAは,(1)開発段階にわたる記述型入力をサポートする包括的なモデルカードフォーマット,(2)政策正規化スキーム,(3)コスト削減戦略を備えた効率的なLCMによるペアワイズ評価エンジン,(4)コンプライアンス・ヒートマップとアクション可能なレコメンデーションによる解釈可能な評価を提供するインターフェース,の4つのイノベーションを統合したスケーラブルなコンプライアンスツールである。
専門家評価では、PASTAの判断は人間の専門家(ρ\geq .626$)と密接に一致している。
このシステムは、約3ドルで2分以内に5つの主要なポリシーを評価する。
ユーザ調査 (N = 12) では,アウトプットの理解が容易で動作可能なことを確認し,スケーラブルな自動AIガバナンスのための新たなフレームワークを導入している。
関連論文リスト
- Beyond IVR: Benchmarking Customer Support LLM Agents for Business-Adherence [1.8357468337756873]
顧客サポートにおけるポリシー対応エージェントの評価を目的としたベンチマークであるJourneyBenchを紹介する。
静的プロンプトエージェント(SPA)と動的プロンプトエージェント(DPA)の2つのエージェント設計を用いて,複数の最先端エージェント設計を評価する。
DPAは,GPT-4o-miniのような小型モデルでも,GPT-4o-miniのようなより有能なモデルよりも優れることを示す。
論文 参考訳(メタデータ) (2026-01-02T07:21:23Z) - Analyzing and Internalizing Complex Policy Documents for LLM Agents [53.14898416858099]
大規模言語モデル(LLM)ベースのエージェントシステムは、多様なビジネスルールをコードするコンテキスト内ポリシー文書に依存している。
これは、パフォーマンスを保ちながら、ポリシー文書をモデルプリエントに組み込む内部化手法の開発を動機付けます。
CC-Genは4つのレベルにまたがる制御可能な複雑度を持つエージェントベンチマークジェネレータである。
論文 参考訳(メタデータ) (2025-10-13T16:30:07Z) - Multimodal Policy Internalization for Conversational Agents [48.11601444262434]
マルチモーダルポリシー内部化(MPI)は、推論集約型マルチモーダルポリシーをモデルパラメータに内部化する新しいタスクである。
合成と実世界の意思決定とツール使用タスクにまたがる2つのデータセットを構築します。
TriMPIは、エンドツーエンドの精度、一般化、ロバスト性において顕著な向上を実現している。
論文 参考訳(メタデータ) (2025-10-10T15:28:30Z) - Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition [52.232968183793986]
General Policy Composition (GPC) は、複数の事前学習されたポリシーの分布スコアを組み合わせることで、パフォーマンスを向上させる訓練のない手法である。
GPCは、さまざまなタスクセットにおけるパフォーマンスと適応性を一貫して改善します。
論文 参考訳(メタデータ) (2025-10-01T16:05:53Z) - Policy-as-Prompt: Turning AI Governance Rules into Guardrails for AI Agents [0.19336815376402716]
我々は、構造化されていない設計成果物(RD、TDD、コードなど)を検証可能なランタイムガードレールに変換する規制機械学習フレームワークを導入します。
Promptメソッドとしての私たちのポリシーは、これらのドキュメントを読み、ソースリンクされたポリシーツリーを構築するためのリスクコントロールです。
システムは最小限の特権とデータ最小化を強制するために構築される。
論文 参考訳(メタデータ) (2025-09-28T17:36:52Z) - Advancing Science- and Evidence-based AI Policy [163.43609502905707]
本稿では,AIの機会と課題に対処するために,エビデンスと政策の関係を最適化する方法の課題に取り組む。
i)AIのリスクとその効果的な緩和に関する研究、または(ii)これらのリスクに対処するための政策を提唱することで、この問題に対処する努力が増えている。
論文 参考訳(メタデータ) (2025-08-02T23:20:58Z) - Strategic Prompt Pricing for AIGC Services: A User-Centric Approach [21.554792002413798]
現在のアプローチでは、生成AIモデルの選択と活用において、ユーザの戦略的2段階の決定プロセスを見落としている。
本稿では,迅速なエンジニアリングにおけるユーザのさまざまな能力を捉える理論的枠組みである即時あいまいさを導入する。
当社のOPPアルゴリズムは,既存の価格設定機構と比較して,プラットフォームペイオフの最大31.72%の改善を実現している。
論文 参考訳(メタデータ) (2025-03-23T18:41:06Z) - Privacy Policy Analysis through Prompt Engineering for LLMs [3.059256166047627]
PAPEL (Privacy Policy Analysis through Prompt Engineering for LLMs) は、Large Language Models (LLMs) の力を利用してプライバシーポリシーの分析を自動化するフレームワークである。
これらのポリシーからの情報の抽出、アノテーション、要約を合理化し、追加のモデルトレーニングを必要とせず、アクセシビリティと理解性を高めることを目的としている。
PAPELの有効性を, (i) アノテーションと (ii) 矛盾解析の2つの応用で実証した。
論文 参考訳(メタデータ) (2024-09-23T10:23:31Z) - An AI System Evaluation Framework for Advancing AI Safety: Terminology, Taxonomy, Lifecycle Mapping [23.92695048003188]
本稿では,3つのコンポーネントからなるAIシステム評価フレームワークを提案する。
このフレームワークは、モデル中心のアプローチを越えて、AIシステム評価に関するより深い議論を触媒する。
論文 参考訳(メタデータ) (2024-04-08T10:49:59Z) - Scalable Online Exploration via Coverability [45.66375686120087]
探索は、特に関数近似を必要とする高次元領域において、強化学習において大きな課題である。
従来の探索手法を一般化し,3つの基本デシラタをサポートする新しい目的である$L_Coverageを導入する。
$L_Coverageは、カバー可能性の低いMDPにおけるオンライン(リワードフリーまたは報酬駆動)強化学習のための、最初の計算効率のよいモデルベースおよびモデルフリーのアルゴリズムを可能にする。
論文 参考訳(メタデータ) (2024-03-11T10:14:06Z) - Dialogue for Prompting: a Policy-Gradient-Based Discrete Prompt
Generation for Few-shot Learning [14.200398093260118]
事前の離散的なプロンプト最適化法は、基本プロンプトセットを設計し、高品質なプロンプトを特定するために専門家の知識を必要とする。
既存の連続的なプロンプト最適化手法は、理想的なプロンプトを学習することで性能を向上させる。
数ショット設定でタスク上でのPLMパラメータサイズのわずか0.67%のポリシネットワークをトレーニングすることにより、$DPO$は4つのオープンソースデータセットで1.52%の精度で最先端(SOTA)メソッドを上回ります。
論文 参考訳(メタデータ) (2023-08-14T16:58:50Z) - Building a Foundation for Data-Driven, Interpretable, and Robust Policy
Design using the AI Economist [67.08543240320756]
AIエコノミストフレームワークは,2段階強化学習とデータ駆動型シミュレーションを用いて,効果的な,柔軟な,解釈可能なポリシー設計を可能にする。
RLを用いて訓練されたログリニア政策は、過去の結果と比較して、公衆衛生と経済の両面から社会福祉を著しく改善することがわかった。
論文 参考訳(メタデータ) (2021-08-06T01:30:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。