論文の概要: RAISE: A Unified Framework for Responsible AI Scoring and Evaluation
- arxiv url: http://arxiv.org/abs/2510.18559v1
- Date: Tue, 21 Oct 2025 12:15:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.461933
- Title: RAISE: A Unified Framework for Responsible AI Scoring and Evaluation
- Title(参考訳): RAISE: 責任のあるAIスコーリングと評価のための統一フレームワーク
- Authors: Loc Phuc Truong Nguyen, Hung Thanh Do,
- Abstract要約: RAISE(Responsible AI Scoring and Evaluation)は、4次元にわたるモデルパフォーマンスを定量化し、それらを単一のResponsibility Scoreに集約する統合フレームワークである。
トランスフォーマーは非常に高い環境コストで説明可能性と公正性に優れ、Tabular ResNetはバランスの取れたプロファイルを提供した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As AI systems enter high-stakes domains, evaluation must extend beyond predictive accuracy to include explainability, fairness, robustness, and sustainability. We introduce RAISE (Responsible AI Scoring and Evaluation), a unified framework that quantifies model performance across these four dimensions and aggregates them into a single, holistic Responsibility Score. We evaluated three deep learning models: a Multilayer Perceptron (MLP), a Tabular ResNet, and a Feature Tokenizer Transformer, on structured datasets from finance, healthcare, and socioeconomics. Our findings reveal critical trade-offs: the MLP demonstrated strong sustainability and robustness, the Transformer excelled in explainability and fairness at a very high environmental cost, and the Tabular ResNet offered a balanced profile. These results underscore that no single model dominates across all responsibility criteria, highlighting the necessity of multi-dimensional evaluation for responsible model selection. Our implementation is available at: https://github.com/raise-framework/raise.
- Abstract(参考訳): AIシステムが高い領域に入るとき、評価は予測精度を超えて、説明可能性、公正性、堅牢性、持続可能性を含む必要がある。
RAISE(Responsible AI Scoring and Evaluation)は、これらの4次元にわたるモデルパフォーマンスを定量化し、それらを単一の総合的なResponsibility Scoreに集約する統合フレームワークである。
ファイナンス,医療,社会経済学の構造化データセットを用いて,多層パーセプトロン(MLP),タブラル・レスネット(Tabular ResNet),特徴トケナイザ・トランスフォーマー(Feature Tokenizer Transformer)の3つのディープラーニングモデルを評価した。
MLPは強い持続性と堅牢性を示し、トランスフォーマーは極めて高い環境コストで説明性および公正性に優れ、Tarbular ResNetはバランスの取れたプロファイルを提供した。
これらの結果は、すべての責任基準において単一のモデルが支配的ではなく、責任あるモデル選択のための多次元評価の必要性を強調している。
私たちの実装は、https://github.com/raise-framework/raiseで利用可能です。
関連論文リスト
- Enhancing Credit Risk Prediction: A Meta-Learning Framework Integrating Baseline Models, LASSO, and ECOC for Superior Accuracy [7.254744067646655]
本研究では,複数の相補的モデルを合成する包括的メタラーニングフレームワークを提案する。
我々は,全ての構成モデルにまたがる予測クラスに対して,置換特徴重要度分析を実装した。
その結果,我々の枠組みは,財務組織分類の精度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-09-26T14:09:04Z) - A Comparative Benchmark of Large Language Models for Labelling Wind Turbine Maintenance Logs [0.0]
本稿では,複雑な産業記録を分類する作業において,LLM(Large Language Models)をベンチマークするためのフレームワークを提案する。
透明性を促進し、さらなる研究を促進するため、このフレームワークはオープンソースツールとして公開されている。
明確なパフォーマンス階層を定量化し、ベンチマーク標準と高い整合性を示すトップモデルを特定します。
論文 参考訳(メタデータ) (2025-09-08T15:48:17Z) - Sustainability via LLM Right-sizing [21.17523328451591]
大規模言語モデル(LLM)はますます組織に組み込まれている。
本研究は,10の日常業務において,プロプライエタリでオープンウェイトなLDMを11個評価することによって,実証的な回答を提供する。
その結果, GPT-4oは高い性能を保ちながら, コストと環境のフットプリントが著しく高いことがわかった。
論文 参考訳(メタデータ) (2025-04-17T04:00:40Z) - M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment [65.3860007085689]
M3-AGIQAは、AI生成画像のより人間らしく総合的な評価を可能にする包括的なフレームワークである。
モデル出力を人間の判断とより密接に整合させることで、M3-AGIQAは堅牢で解釈可能な品質スコアを提供する。
論文 参考訳(メタデータ) (2025-02-21T03:05:45Z) - Benchmarking Zero-Shot Robustness of Multimodal Foundation Models: A Pilot Study [61.65123150513683]
CLIPのようなマルチモーダル基盤モデルは、最先端のゼロショット結果を生成する。
これらのモデルは、ImageNetでトレーニングされた教師付きモデルのパフォーマンスを一致させることで、ロバスト性ギャップを埋めることが報告されている。
CLIPは、ベンチマーク上の教師付きImageNetモデルと比較して、かなりの堅牢性低下をもたらすことを示す。
論文 参考訳(メタデータ) (2024-03-15T17:33:49Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - Exploring the Trade-off between Plausibility, Change Intensity and
Adversarial Power in Counterfactual Explanations using Multi-objective
Optimization [73.89239820192894]
自動対物生成は、生成した対物インスタンスのいくつかの側面を考慮すべきである。
本稿では, 対実例生成のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-20T15:02:53Z) - A Comprehensive Evaluation Framework for Deep Model Robustness [44.20580847861682]
ディープニューラルネットワーク(DNN)は、幅広いアプリケーションで顕著なパフォーマンスを達成しています。
彼らは敵の防御を動機付ける敵の例に弱い。
本稿では,包括的で厳密で一貫性のある評価指標を含むモデル評価フレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-24T01:04:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。