論文の概要: Regulating the Agency of LLM-based Agents
- arxiv url: http://arxiv.org/abs/2509.22735v1
- Date: Thu, 25 Sep 2025 20:14:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.835315
- Title: Regulating the Agency of LLM-based Agents
- Title(参考訳): LLMを基盤としたエージェントの規制
- Authors: Seán Boddy, Joshua Joseph,
- Abstract要約: 本稿では,AIシステムを直接計測し,制御する手法を提案する。
我々は, LLMをベースとしたエージェントのエージェントを, インテリジェンス関連の対策とは無関係な資産として概念化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As increasingly capable large language model (LLM)-based agents are developed, the potential harms caused by misalignment and loss of control grow correspondingly severe. To address these risks, we propose an approach that directly measures and controls the agency of these AI systems. We conceptualize the agency of LLM-based agents as a property independent of intelligence-related measures and consistent with the interdisciplinary literature on the concept of agency. We offer (1) agency as a system property operationalized along the dimensions of preference rigidity, independent operation, and goal persistence, (2) a representation engineering approach to the measurement and control of the agency of an LLM-based agent, and (3) regulatory tools enabled by this approach: mandated testing protocols, domain-specific agency limits, insurance frameworks that price risk based on agency, and agency ceilings to prevent societal-scale risks. We view our approach as a step toward reducing the risks that motivate the ``Scientist AI'' paradigm, while still capturing some of the benefits from limited agentic behavior.
- Abstract(参考訳): 大規模言語モデル(LLM)をベースとしたエージェントの開発が進むにつれて、誤調整や制御の喪失による潜在的な害は、それに応じて深刻化する。
これらのリスクに対処するため、我々はこれらのAIシステムのエージェントを直接測定し、制御するアプローチを提案する。
我々は, LLMをベースとしたエージェントのエージェントを, 情報関連対策とは無関係な財産として概念化し, エージェントの概念に関する学際文献と整合する。
我々は,(1)優先剛性,独立操作,目標持続性の次元に沿って運用されるシステム特性として,(2)LLMエージェントのエージェントの測定・制御のための表現工学的アプローチ,(3)このアプローチが実現可能な規制ツールとして,強制試験プロトコル,ドメイン固有の機関制限,リスクをリスクとして設定する保険フレームワーク,および,社会規模のリスクを防止するための機関天井を提供する。
我々は、我々のアプローチが『科学AI』パラダイムを動機付けるリスクを減らすためのステップでありながら、限定的なエージェント的行動から恩恵を享受していると考えている。
関連論文リスト
- TRiSM for Agentic AI: A Review of Trust, Risk, and Security Management in LLM-based Agentic Multi-Agent Systems [8.683314804719506]
本稿では,エージェントマルチエージェントシステム(AMAS)における信頼・リスク・セキュリティマネジメント(TRiSM)の構造的分析について述べる。
まず、エージェントAIの概念的基礎を調べ、従来のAIエージェントとアーキテクチャ的区別を強調します。
次に、Textit Explainability、ModelOps、Security、Privacy、Textittheirのガバナンスガバナンスといった重要な柱を中心に構築された、エージェントAIのためのAI TRiSMフレームワークを適応して拡張します。
調整失敗から調整失敗まで、エージェントAIのユニークな脅威と脆弱性を捉えるためにリスク分類法が提案されている。
論文 参考訳(メタデータ) (2025-06-04T16:26:11Z) - LLM Agents Should Employ Security Principles [60.03651084139836]
本稿では,大規模言語モデル(LLM)エージェントを大規模に展開する際には,情報セキュリティの確立した設計原則を採用するべきであることを論じる。
AgentSandboxは、エージェントのライフサイクル全体を通して保護を提供するために、これらのセキュリティ原則を組み込んだ概念的なフレームワークである。
論文 参考訳(メタデータ) (2025-05-29T21:39:08Z) - Inherent and emergent liability issues in LLM-based agentic systems: a principal-agent perspective [0.0]
大規模言語モデル(LLM)を利用したエージェントシステムは、徐々に複雑になり、能力も向上している。
エージェントの増加とデプロイメント設定の拡大は、効果的なガバナンスポリシや監視、コントロールプロトコルへの関心の高まりを招いている。
我々は, LLMエージェントとその拡張システムの委譲利用による潜在的な責任問題について, プリンシパル・エージェントの観点から分析する。
論文 参考訳(メタデータ) (2025-04-04T08:10:02Z) - AI Agents Should be Regulated Based on the Extent of Their Autonomous Operations [8.043534206868326]
AIエージェントは、自律的に動作する範囲で規制されるべきである、と我々は主張する。
既存の規制は、しばしば潜在的な害のプロキシとして計算スケールに焦点を当てる。
我々は,既存のリスクに関する科学者の規制や勧告について論じる。
論文 参考訳(メタデータ) (2025-02-07T09:40:48Z) - Risks of AI Scientists: Prioritizing Safeguarding Over Autonomy [65.77763092833348]
この視点は、AI科学者の脆弱性を調べ、その誤用に関連する潜在的なリスクに光を当てる。
我々は、ユーザ意図、特定の科学的領域、およびそれらが外部環境に与える影響を考慮に入れている。
本稿では,人間規制,エージェントアライメント,環境フィードバックの理解を含む三段階的枠組みを提案する。
論文 参考訳(メタデータ) (2024-02-06T18:54:07Z) - TrustAgent: Towards Safe and Trustworthy LLM-based Agents [50.33549510615024]
本稿では,エージェント・コンスティチューションをベースとしたエージェント・フレームワークであるTrustAgentについて述べる。
提案枠組みは,計画立案前のモデルに安全知識を注入する事前計画戦略,計画立案時の安全性を高める内計画戦略,計画後検査による安全性を確保する後計画戦略の3つの戦略要素を通じて,エージェント憲法の厳格な遵守を保証する。
論文 参考訳(メタデータ) (2024-02-02T17:26:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。