論文の概要: Towards Responsible AI: Advances in Safety, Fairness, and Accountability of Autonomous Systems
- arxiv url: http://arxiv.org/abs/2506.10192v1
- Date: Wed, 11 Jun 2025 21:30:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.467811
- Title: Towards Responsible AI: Advances in Safety, Fairness, and Accountability of Autonomous Systems
- Title(参考訳): 責任あるAIに向けて:自律システムの安全性、公正性、説明責任の進歩
- Authors: Filip Cano,
- Abstract要約: この論文は、AIシステムの安全性、公正性、透明性、説明責任に関する知識を前進させる。
我々は,古典的決定論的遮蔽技術を拡張し,遅延観測に対する耐性を高める。
我々は,グループフェアネスを逐次決定設定で強制するための,新しい後処理手法であるフェアネスシールドを導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensuring responsible use of artificial intelligence (AI) has become imperative as autonomous systems increasingly influence critical societal domains. However, the concept of trustworthy AI remains broad and multi-faceted. This thesis advances knowledge in the safety, fairness, transparency, and accountability of AI systems. In safety, we extend classical deterministic shielding techniques to become resilient against delayed observations, enabling practical deployment in real-world conditions. We also implement both deterministic and probabilistic safety shields into simulated autonomous vehicles to prevent collisions with road users, validating the use of these techniques in realistic driving simulators. We introduce fairness shields, a novel post-processing approach to enforce group fairness in sequential decision-making settings over finite and periodic time horizons. By optimizing intervention costs while strictly ensuring fairness constraints, this method efficiently balances fairness with minimal interference. For transparency and accountability, we propose a formal framework for assessing intentional behaviour in probabilistic decision-making agents, introducing quantitative metrics of agency and intention quotient. We use these metrics to propose a retrospective analysis of intention, useful for determining responsibility when autonomous systems cause unintended harm. Finally, we unify these contributions through the ``reactive decision-making'' framework, providing a general formalization that consolidates previous approaches. Collectively, the advancements presented contribute practically to the realization of safer, fairer, and more accountable AI systems, laying the foundations for future research in trustworthy AI.
- Abstract(参考訳): 人工知能(AI)の責任を負うことの保証は、自律システムがますます重要な社会的領域に影響を及ぼすにつれて重要になっている。
しかし、信頼できるAIの概念は広く、多面的のままである。
この論文は、AIシステムの安全性、公正性、透明性、説明責任に関する知識を前進させる。
安全においては,従来の決定論的遮蔽技術を拡張して,遅延観測に対する耐性を高め,実環境における実用的展開を可能にした。
また,道路利用者との衝突を防止し,現実的な運転シミュレータにおけるこれらの技術の有効性を検証するために,決定論的および確率論的安全シールドをシミュレーションされた自動運転車に実装する。
有限時間および周期時間地平線上での逐次決定設定において群フェアネスを強制する新しい後処理手法であるフェアネスシールドを導入する。
干渉コストの最適化と厳密な公正性制約の確保により、フェアネスと最小限の干渉とを効率よくバランスさせる。
透明性と説明責任のために,確率的意思決定エージェントの意図的行動を評価するための形式的枠組みを提案し,エージェントと意図的商量の定量的指標を導入する。
これらの指標を用いて、自律的なシステムが意図しない害を引き起こす場合の責任決定に有用な意図の振り返り分析を提案する。
最後に、これらのコントリビューションを 'reactive decision-making'' フレームワークを通じて統合し、従来のアプローチを統合する一般的な形式化を提供します。
全体として、提示された進歩は、より安全で公平で説明可能なAIシステムの実現に事実上貢献し、将来的な信頼できるAI研究の基礎を築いた。
関連論文リスト
- Safety by Measurement: A Systematic Literature Review of AI Safety Evaluation Methods [0.0]
この文献レビューは、急速に進化するAI安全性評価の分野を集約する。
それは、どの特性を計測するか、どのように測定するか、そしてこれらの測定がフレームワークにどのように統合されるかという、3つの次元に関する体系的な分類法を提案する。
論文 参考訳(メタデータ) (2025-05-08T16:55:07Z) - A Domain-Agnostic Scalable AI Safety Ensuring Framework [8.086635708001166]
本稿では,AIシステムが特定の確率でユーザ定義の安全制約を満たすことを保証する新しいフレームワークを提案する。
当社のアプローチでは,任意のAIモデルと最適化問題を組み合わせることで,パフォーマンスを維持しながら,アウトプットが安全要件を満たすことを保証する。
本手法は,穏やかな条件下での確率論的安全性を保証するとともに,AIの安全性における最初のスケーリング法則を確立する。
論文 参考訳(メタデータ) (2025-04-29T16:38:35Z) - Trustworthiness in Stochastic Systems: Towards Opening the Black Box [1.7355698649527407]
AIシステムによる行動は、アライメントと潜在的な信頼を損なう恐れがある。
我々は、基礎性と信頼性の間の緊張と潜在的な対立に対して哲学的な視点を採っている。
我々は,AIシステムとユーザの両方に対して,アライメントをよりよく評価するための潜在値モデリングを提案する。
論文 参考訳(メタデータ) (2025-01-27T19:43:09Z) - SafetyAnalyst: Interpretable, Transparent, and Steerable Safety Moderation for AI Behavior [56.10557932893919]
我々は、新しいAI安全モデレーションフレームワークであるSafetyAnalystを紹介する。
AIの振る舞いを考えると、SafetyAnalystはチェーン・オブ・シークレット・推論を使用してその潜在的な結果を分析する。
効果を28個の完全に解釈可能な重みパラメータを使って有害度スコアに集約する。
論文 参考訳(メタデータ) (2024-10-22T03:38:37Z) - Towards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems [88.80306881112313]
我々は、AI安全性に対する一連のアプローチを紹介し、定義する。
これらのアプローチの中核的な特徴は、高保証の定量的安全性保証を備えたAIシステムを作ることである。
これら3つのコアコンポーネントをそれぞれ作成するためのアプローチを概説し、主な技術的課題を説明し、それらに対する潜在的なソリューションをいくつか提案します。
論文 参考訳(メタデータ) (2024-05-10T17:38:32Z) - Trustworthy AI: From Principles to Practices [44.67324097900778]
多くの現在のAIシステムは、認識不能な攻撃に脆弱で、表現不足なグループに偏り、ユーザのプライバシ保護が欠如していることが判明した。
このレビューでは、信頼できるAIシステムを構築するための包括的なガイドとして、AI実践者に提供したいと思っています。
信頼に値するAIに対する現在の断片化されたアプローチを統合するために、AIシステムのライフサイクル全体を考慮した体系的なアプローチを提案する。
論文 参考訳(メタデータ) (2021-10-04T03:20:39Z) - Trustworthy AI [75.99046162669997]
入力データの小さな敵対的変化への脆さ、決定の説明能力、トレーニングデータのバイアスに対処する能力は、最も顕著な制限である。
我々は,AIシステムに対するユーザおよび公的な信頼を高める上での6つの重要な問題に対処するために,信頼に値するAIに関するチュートリアルを提案する。
論文 参考訳(メタデータ) (2020-11-02T20:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。