論文の概要: Nishpaksh: TEC Standard-Compliant Framework for Fairness Auditing and Certification of AI Models
- arxiv url: http://arxiv.org/abs/2601.16926v1
- Date: Fri, 23 Jan 2026 17:35:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.783505
- Title: Nishpaksh: TEC Standard-Compliant Framework for Fairness Auditing and Certification of AI Models
- Title(参考訳): Nishpaksh: AIモデルの公正監査と認定のためのTEC標準準拠フレームワーク
- Authors: Shashank Prakash, Ranjitha Prasad, Avinash Agarwal,
- Abstract要約: 我々は,人工知能システムの評価と評価のための通信工学センター(TEC)標準を運用する,土着の公正性評価ツールであるNishpakshを提案する。
Nishpakshは、調査ベースのリスク、コンテキストのしきい値の決定、定量的公正性評価を、統一されたWebベースのダッシュボードに統合する。
- 参考スコア(独自算出の注目度): 4.881152405850494
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The growing reliance on Artificial Intelligence (AI) models in high-stakes decision-making systems, particularly within emerging telecom and 6G applications, underscores the urgent need for transparent and standardized fairness assessment frameworks. While global toolkits such as IBM AI Fairness 360 and Microsoft Fairlearn have advanced bias detection, they often lack alignment with region-specific regulatory requirements and national priorities. To address this gap, we propose Nishpaksh, an indigenous fairness evaluation tool that operationalizes the Telecommunication Engineering Centre (TEC) Standard for the Evaluation and Rating of Artificial Intelligence Systems. Nishpaksh integrates survey-based risk quantification, contextual threshold determination, and quantitative fairness evaluation into a unified, web-based dashboard. The tool employs vectorized computation, reactive state management, and certification-ready reporting to enable reproducible, audit-grade assessments, thereby addressing a critical post-standardization implementation need. Experimental validation on the COMPAS dataset demonstrates Nishpaksh's effectiveness in identifying attribute-specific bias and generating standardized fairness scores compliant with the TEC framework. The system bridges the gap between research-oriented fairness methodologies and regulatory AI governance in India, marking a significant step toward responsible and auditable AI deployment within critical infrastructure like telecommunications.
- Abstract(参考訳): 人工知能(AI)モデルへの依存の高まりは、特に新興通信や6Gアプリケーションにおいて、透明性と標準化された公正性評価フレームワークに対する緊急の必要性を浮き彫りにしている。
IBM AI Fairness 360やMicrosoft Fairlearnのようなグローバルツールキットは高度なバイアス検出を備えているが、リージョン固有の規制要件や国家の優先順位と一致していないことが多い。
このギャップに対処するため、我々は、人工知能システムの評価と評価のための通信工学センター(TEC)標準を運用する、先住民フェアネス評価ツールであるNishpakshを提案する。
Nishpakshは、調査ベースのリスク定量化、コンテキストしきい値の決定、定量的公正性評価を、統一されたWebベースのダッシュボードに統合する。
このツールは、ベクトル化された計算、リアクティブ状態管理、認定対応のレポートを使用して、再現性のある監査グレードの評価を可能にし、重要な標準化後の実装ニーズに対処する。
COMPASデータセットの実験的検証では、属性固有のバイアスを特定し、TECフレームワークに準拠した標準化された公正度スコアを生成する上で、Nishpakshの有効性が示されている。
このシステムは、研究指向の公正な方法論とインドの規制AIガバナンスのギャップを埋め、電気通信のような重要なインフラにおける、責任と監査可能なAIデプロイメントに向けた重要なステップとなる。
関連論文リスト
- AI-NativeBench: An Open-Source White-Box Agentic Benchmark Suite for AI-Native Systems [52.65695508605237]
我々は、Model Context Protocol(MCP)とAgent-to-Agent(A2A)標準に基づいて、アプリケーション中心でホワイトボックスのAI-NativeベンチマークスイートであるAI-NativeBenchを紹介する。
エージェントスパンを分散トレース内の第一級市民として扱うことにより,本手法は,単純な機能以上の工学的特性の粒度解析を可能にする。
この研究は、モデル能力の測定から信頼性の高いAI-Nativeシステムへの移行を導く最初の体系的な証拠を提供する。
論文 参考訳(メタデータ) (2026-01-14T11:32:07Z) - Variance-Bounded Evaluation of Entity-Centric AI Systems Without Ground Truth: Theory and Measurement [0.0]
本稿では,エンティティ中心型AIシステムのための分散境界評価フレームワークであるVB-Scoreを紹介する。
VB-Scoreは制約緩和とモンテカルロサンプリングを通じて可算解釈を列挙する。
そして、システムの堅牢性を評価するために、システムアウトプットを解釈を越えて予測される成功によって評価し、分散によって罰する。
論文 参考訳(メタデータ) (2025-09-26T07:54:38Z) - Safe and Certifiable AI Systems: Concepts, Challenges, and Lessons Learned [45.44933002008943]
この白書は、T"UV AUSTRIA Trusted AIフレームワークを提示する。
エンド・ツー・エンドの監査カタログであり、機械学習システムの評価と認定のための方法論である。
セキュアなソフトウェア開発、機能要件、倫理とデータプライバシという3つの柱の上に構築されているのは、EU AI Actの高レベルの義務を、特定かつテスト可能な基準に翻訳するものです。
論文 参考訳(メタデータ) (2025-09-08T17:52:08Z) - SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection [70.23196257213829]
オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。
提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。
次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
論文 参考訳(メタデータ) (2025-03-05T09:37:05Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z) - A Unified Framework for Evaluating the Effectiveness and Enhancing the Transparency of Explainable AI Methods in Real-World Applications [2.0681376988193843]
本研究では,XAIの単一評価フレームワークについて紹介する。
数字とユーザフィードバックの両方を使って、説明が正しいか、理解しやすく、公平で、完全で、信頼できるかをチェックする。
我々は、医療、金融、農業、自動運転システムにおけるケーススタディを通じて、この枠組みの価値を示す。
論文 参考訳(メタデータ) (2024-12-05T05:30:10Z) - Fairness Score and Process Standardization: Framework for Fairness
Certification in Artificial Intelligence Systems [0.4297070083645048]
本稿では,データ駆動型AIシステムの公平性を測定するための新しいフェアネススコアを提案する。
また、公正性の概念を運用し、そのようなシステムの商用展開を容易にするためのフレームワークも提供する。
論文 参考訳(メタデータ) (2022-01-10T15:45:12Z) - Multisource AI Scorecard Table for System Evaluation [3.74397577716445]
本稿では、AI/機械学習(ML)システムの開発者およびユーザに対して標準チェックリストを提供するマルチソースAIスコアカードテーブル(MAST)について述べる。
本稿では,インテリジェンス・コミュニティ・ディレクティブ(ICD)203で概説されている分析的トレードクラフト標準が,AIシステムの性能を評価するためのフレームワークを提供する方法について考察する。
論文 参考訳(メタデータ) (2021-02-08T03:37:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。