論文の概要: ArGen: Auto-Regulation of Generative AI via GRPO and Policy-as-Code
- arxiv url: http://arxiv.org/abs/2509.07006v1
- Date: Sat, 06 Sep 2025 04:33:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.017848
- Title: ArGen: Auto-Regulation of Generative AI via GRPO and Policy-as-Code
- Title(参考訳): ArGen: GRPOとポリシ・アズ・コードによる生成AIの自動規制
- Authors: Kapil Madan,
- Abstract要約: ArGenは、倫理原則、運用安全プロトコル、規制コンプライアンス標準にまたがる複雑なルールで大規模言語モデルを調整するためのフレームワークである。
ArGenの方法論は、技術的に熟練し、倫理的に堅牢で、様々なグローバルな文脈における安全な配置に確実に準拠する「統治可能なAl」システムへの道筋を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces ArGen (Auto-Regulation of Generative AI systems), a framework for aligning Large Language Models (LLMs) with complex sets of configurable, machine-readable rules spanning ethical principles, operational safety protocols, and regulatory compliance standards. Moving beyond just preference-based alignment, ArGen is designed to ensure LLMs adhere to these multifaceted policies through a novel synthesis of principle-based automated reward scoring, Group Relative Policy Optimisation (GRPO), and an Open Policy Agent (OPA) inspired governance layer. This approach provides the technical foundation for achieving and demonstrating compliance with diverse and nuanced governance requirements. To showcase the framework's capability to operationalize a deeply nuanced and culturally-specific value system, we present an in-depth case study: the development of a medical AI assistant guided by principles from Dharmic ethics (such as Ahimsa and Dharma), as derived from texts like the Bhagavad Gita. This challenging application demonstrates ArGen's adaptability, achieving a 70.9% improvement in domain-scope adherence over the baseline. Through our open-source repository, we show that ArGen's methodology offers a path to 'Governable Al' systems that are technically proficient, ethically robust, and verifiably compliant for safe deployment in diverse global contexts.
- Abstract(参考訳): 本稿では,ArGen(Auto-Regulation of Generative AI Systems, 自動生成AIシステム)について紹介する。
ArGenは、単に嗜好に基づくアライメントを超えて、原則に基づく自動報酬スコアリング、グループ相対ポリシー最適化(GRPO)、オープンポリシーエージェント(OPA)にインスパイアされたガバナンスレイヤの新たな合成を通じて、LSMがこれらの多面的ポリシーに準拠するように設計されている。
このアプローチは、多様でニュアンスのあるガバナンス要件の遵守を達成し、実証するための技術的な基盤を提供します。
バガバッド・ギータのようなテキストから派生した、ダルミズム倫理(AhimsaやDharmaなど)の原則によって導かれる医療AIアシスタントの開発。
この挑戦的なアプリケーションはArGenの適応性を示し、ベースラインよりも70.9%のドメインスコープの順守を実現している。
オープンソースリポジトリを通じて、ArGenの方法論が、技術的に熟練し、倫理的に堅牢で、さまざまなグローバルなコンテキストにおける安全なデプロイメントに確実に準拠する、"Governable Al"システムへのパスを提供することを示す。
関連論文リスト
- ARPaCCino: An Agentic-RAG for Policy as Code Compliance [0.18472148461613155]
ARPaCCinoは、Large Language Models、Retrieval-Augmented-Generation、ツールベースのバリデーションを組み合わせたエージェントシステムである。
公式なRegoルールを生成し、IaC準拠を評価し、IaC設定を反復的に洗練し、適合性を保証する。
本研究では,PACの自動化,信頼性,アクセシビリティを高めるために,エージェントRAGアーキテクチャの可能性を強調した。
論文 参考訳(メタデータ) (2025-07-11T12:36:33Z) - Action Dependency Graphs for Globally Optimal Coordinated Reinforcement Learning [0.0]
行動依存型個別政策は多エージェント強化学習におけるグローバルな最適性を達成するための有望なパラダイムとして浮上している。
本研究では、必ずしも自己回帰形式に従わない、より一般化された行動依存型ポリシーを考察する。
協調グラフによって構成されたMARL問題の文脈内では、疎ADGを用いた行動依存ポリシーがグローバルな最適性を達成することが証明される。
論文 参考訳(メタデータ) (2025-06-01T02:58:20Z) - MSDA: Combining Pseudo-labeling and Self-Supervision for Unsupervised Domain Adaptation in ASR [59.83547898874152]
本稿では,自己教師付き学習と半教師付き技術を統合する,サンプル効率のよい2段階適応手法を提案する。
MSDAは、ASRモデルの堅牢性と一般化を強化するように設計されている。
本稿では,メタPLがASRタスクに効果的に適用可能であることを示す。
論文 参考訳(メタデータ) (2025-05-30T14:46:05Z) - Enterprise Architecture as a Dynamic Capability for Scalable and Sustainable Generative AI adoption: Bridging Innovation and Governance in Large Organisations [55.2480439325792]
生成人工知能(Generative Artificial Intelligence)は、イノベーションを促進し、多くの産業におけるガバナンスを再形成する可能性を持つ強力な新技術である。
しかし、テクノロジの複雑さ、ガバナンスのギャップ、リソースのミスアライメントなど、GenAIをスケールする上で大きな課題に直面している。
本稿では、大企業におけるGenAI導入の複雑な要件をエンタープライズアーキテクチャ管理が満たす方法について検討する。
論文 参考訳(メタデータ) (2025-05-09T07:41:33Z) - Approaches to Responsible Governance of GenAI in Organizations [0.1747623282473278]
本稿では,GenAIガバナンスを多種多様な組織構造に統合するための基本原則を特定するための文献,確立されたガバナンスフレームワーク,産業の総括的な議論について述べる。
発見は、信頼できるGenAIを確立するために、適応可能なリスクアセスメントツール、継続的監視プラクティス、クロスセクタコラボレーションの必要性を強調している。
論文 参考訳(メタデータ) (2025-04-23T18:43:29Z) - Standardizing Intelligence: Aligning Generative AI for Regulatory and Operational Compliance [3.666326242924816]
我々は、ドメインやセクター間で異なる標準の臨界レベルを評価し、最先端のGenAIモデルの現在のコンプライアンス能力を評価することでそれらを補完する。
全体として、GenAIと標準を計算手法で整合させることは、規制と運用のコンプライアンスを強化するのに役立つと論じる。
論文 参考訳(メタデータ) (2025-02-03T16:55:01Z) - Levels of AGI for Operationalizing Progress on the Path to AGI [64.59151650272477]
本稿では,人工知能(AGI)モデルとその前駆体の性能と動作を分類する枠組みを提案する。
このフレームワークは、AGIのパフォーマンス、一般性、自律性のレベルを導入し、モデルを比較し、リスクを評価し、AGIへの道筋に沿って進捗を測定する共通の言語を提供する。
論文 参考訳(メタデータ) (2023-11-04T17:44:58Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。
その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z) - Option-Aware Adversarial Inverse Reinforcement Learning for Robotic
Control [44.77500987121531]
階層的模倣学習 (Hierarchical Imitation Learning, HIL) は, 長期作業における複雑度の高い動作を, 専門家による実証から再現するために提案されている。
逆逆強化学習に基づく新しいHILアルゴリズムを開発した。
また,目的をエンド・ツー・エンドで学習するための変分オートエンコーダフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-05T00:28:26Z) - Interpretable Reinforcement Learning with Multilevel Subgoal Discovery [77.34726150561087]
離散環境のための新しい強化学習モデルを提案する。
モデルでは、エージェントは確率的ルールの形で環境に関する情報を学習する。
学習には報酬関数は不要であり、エージェントは達成するための第一の目標のみを与える必要がある。
論文 参考訳(メタデータ) (2022-02-15T14:04:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。