論文の概要: Toward Safe and Responsible AI Agents: A Three-Pillar Model for Transparency, Accountability, and Trustworthiness
- arxiv url: http://arxiv.org/abs/2601.06223v1
- Date: Fri, 09 Jan 2026 07:27:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.695242
- Title: Toward Safe and Responsible AI Agents: A Three-Pillar Model for Transparency, Accountability, and Trustworthiness
- Title(参考訳): 安全で責任のあるAIエージェントに向けて:透明性、説明責任、信頼性のための3つの柱モデル
- Authors: Edward C. Cheng, Jeshua Cheng, Alice Siu,
- Abstract要約: 本稿では,安全で信頼性の高いAIエージェントを開発し,運用するための概念的かつ運用的なフレームワークを提案する。
このフレームワークは、透明性、説明責任、信頼性を基礎とした三柱モデルに基づいている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a conceptual and operational framework for developing and operating safe and trustworthy AI agents based on a Three-Pillar Model grounded in transparency, accountability, and trustworthiness. Building on prior work in Human-in-the-Loop systems, reinforcement learning, and collaborative AI, the framework defines an evolutionary path toward autonomous agents that balances increasing automation with appropriate human oversight. The paper argues that safe agent autonomy must be achieved through progressive validation, analogous to the staged development of autonomous driving, rather than through immediate full automation. Transparency and accountability are identified as foundational requirements for establishing user trust and for mitigating known risks in generative AI systems, including hallucinations, data bias, and goal misalignment, such as the inversion problem. The paper further describes three ongoing work streams supporting this framework: public deliberation on AI agents conducted by the Stanford Deliberative Democracy Lab, cross-industry collaboration through the Safe AI Agent Consortium, and the development of open tooling for an agent operating environment aligned with the Three-Pillar Model. Together, these contributions provide both conceptual clarity and practical guidance for enabling the responsible evolution of AI agents that operate transparently, remain aligned with human values, and sustain societal trust.
- Abstract(参考訳): 本稿では,透明性,説明責任,信頼性を基礎とした三柱モデルに基づいて,安全で信頼性の高いAIエージェントを開発し,運用するための概念的かつ運用的なフレームワークを提案する。
このフレームワークは、Human-in-the-Loopシステム、強化学習、コラボレーティブAIにおける以前の作業に基づいて、自動化の増大と適切な人間の監視のバランスをとる自律エージェントへの進化の道を定義する。
論文は、安全エージェントの自律性は、即時完全自動化ではなく、段階的な自動運転開発に類似した進歩的検証によって達成されなければならないと論じている。
透明性と説明責任は、ユーザ信頼を確立し、幻覚、データバイアス、反転問題などの目標の不一致を含む、生成AIシステムの既知のリスクを軽減するための基本的な要件として特定される。
スタンフォード・デリバティブ・デモクラシー・ラボ(Stanford Deliberative Democracy Lab)によるAIエージェントの公開討論、セーフAIエージェントコンソーシアムによる業界横断コラボレーション、三柱モデルに沿ったエージェント運用環境のためのオープンツールの開発。
これらの貢献によって、概念的明確さと実践的なガイダンスの両方が提供され、透明性を保ち、人間の価値観と整合し、社会的信頼を維持するAIエージェントの責任ある進化を可能にする。
関連論文リスト
- Towards Responsible and Explainable AI Agents with Consensus-Driven Reasoning [4.226647687395254]
本稿では,多モデルコンセンサスと推論層ガバナンスに基づく実運用レベルのエージェントのためのResponsible(RAI)およびExplainable(XAI)AIエージェントアーキテクチャを提案する。
提案した設計では、異種LLMとVLMエージェントのコンソーシアムが独立して、共有入力コンテキストから候補出力を生成する。
専用の推論エージェントは、これらのアウトプットをまたいで構造化された統合を行い、安全と政策の制約を強制し、幻覚と偏見を緩和し、監査可能な証拠に基づく決定を生成する。
論文 参考訳(メタデータ) (2025-12-25T14:49:25Z) - DoubleAgents: Exploring Mechanisms of Building Trust with Proactive AI [29.777890680647186]
DoubleAgentsは、ユーザの介入を通じて透明性とコントロールを組み込むエージェント計画ツールである。
内蔵された応答シミュレーションは現実的なシナリオを生成し、ユーザーはリハーサルし、ポリシーを洗練し、信頼度を調整できる。
論文 参考訳(メタデータ) (2025-09-16T03:43:13Z) - Never Compromise to Vulnerabilities: A Comprehensive Survey on AI Governance [211.5823259429128]
本研究は,本質的セキュリティ,デリバティブ・セキュリティ,社会倫理の3つの柱を中心に構築された,技術的・社会的次元を統合した包括的枠組みを提案する。
我々は,(1)防衛が進化する脅威に対して失敗する一般化ギャップ,(2)現実世界のリスクを無視する不適切な評価プロトコル,(3)矛盾する監視につながる断片的な規制,の3つの課題を特定する。
私たちのフレームワークは、研究者、エンジニア、政策立案者に対して、堅牢でセキュアなだけでなく、倫理的に整合性があり、公的な信頼に値するAIシステムを開発するための実用的なガイダンスを提供します。
論文 参考訳(メタデータ) (2025-08-12T09:42:56Z) - Web3 x AI Agents: Landscape, Integrations, and Foundational Challenges [49.69200207497795]
Web3テクノロジとAIエージェントの収束は、分散化されたエコシステムを再形成する、急速に進化するフロンティアを表している。
本稿では, ランドスケープ, 経済, ガバナンス, セキュリティ, 信頼メカニズムの5つの重要な側面について, Web3 と AI エージェントの交わりについて, 初めてかつ最も包括的な分析を行った。
論文 参考訳(メタデータ) (2025-08-04T15:44:58Z) - LLM Agents Should Employ Security Principles [60.03651084139836]
本稿では,大規模言語モデル(LLM)エージェントを大規模に展開する際には,情報セキュリティの確立した設計原則を採用するべきであることを論じる。
AgentSandboxは、エージェントのライフサイクル全体を通して保護を提供するために、これらのセキュリティ原則を組み込んだ概念的なフレームワークである。
論文 参考訳(メタデータ) (2025-05-29T21:39:08Z) - Do LLMs trust AI regulation? Emerging behaviour of game-theoretic LLM agents [61.132523071109354]
本稿では、異なる規制シナリオ下での戦略選択をモデル化する、AI開発者、規制当局、ユーザ間の相互作用について検討する。
我々の研究は、純粋なゲーム理論エージェントよりも「悲観的」な姿勢を採用する傾向にある戦略的AIエージェントの出現する振る舞いを特定する。
論文 参考訳(メタデータ) (2025-04-11T15:41:21Z) - Agentic Business Process Management: Practitioner Perspectives on Agent Governance in Business Processes [0.7270112855088837]
生成AIの台頭に伴い、ソフトウェアエージェントへの産業的関心が高まりつつある。
本稿では,組織がAIエージェントを効果的に管理する方法を検討する。
AIエージェントの採用に責任を負う6つの重要な推奨事項を概説している。
論文 参考訳(メタデータ) (2025-03-23T20:15:24Z) - Can We Govern the Agent-to-Agent Economy? [0.0]
AIガバナンスに対する現在のアプローチは、AIエージェントが重要なタスクを管理する未来を予測できないことが多い。
我々は、将来の分散化エージェント経済を期待して、研究開発活動に情報を提供するために、業界における新たな概念を強調します。
論文 参考訳(メタデータ) (2025-01-28T00:50:35Z) - Decentralized Governance of Autonomous AI Agents [0.0]
ETHOSは、ブロックチェーン、スマートコントラクト、分散自律組織(DAO)など、Web3テクノロジを活用する分散ガバナンス(DeGov)モデルである。
AIエージェントのグローバルレジストリを確立し、動的リスク分類、比例監視、自動コンプライアンス監視を可能にする。
合理性、倫理的根拠、ゴールアライメントの哲学的原則を統合することで、ETHOSは信頼、透明性、参加的ガバナンスを促進するための堅牢な研究アジェンダを作ることを目指している。
論文 参考訳(メタデータ) (2024-12-22T18:01:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。