論文の概要: Multi-Dimensional Model Integrity and Responsibility Assessment Index and Scoring Framework
- arxiv url: http://arxiv.org/abs/2605.14550v1
- Date: Thu, 14 May 2026 08:29:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.715947
- Title: Multi-Dimensional Model Integrity and Responsibility Assessment Index and Scoring Framework
- Title(参考訳): 多次元モデル統合性と責任評価指標とスコーリングフレームワーク
- Authors: Phuc Truong Loc Nguyen, Thanh Hung Do, Truong Thanh Hung Nguyen, Hung Cao,
- Abstract要約: 本稿では,モデル統合度・責任度評価指標(MIRAI)を提案し,説明可能性,公正性,堅牢性,プライバシー,持続可能性について検討する。
MIRAIは、正規化と方向対応のディメンションスコアを通じて確立されたメトリクスを組み合わせる。
高い予測性能は必ずしも全体的な完全性と責任を損なうものではないことを示す。
- 参考スコア(独自算出の注目度): 1.7038535698746309
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Artificial intelligence in high-stakes tabular domains cannot be evaluated by predictive performance alone, yet current practice still assesses explainability, fairness, robustness, privacy, and sustainability mostly in isolation. We propose the Model Integrity and Responsibility Assessment Index (MIRAI), a unified evaluation framework that measures tabular models across these five dimensions under a controlled comparison setting and aggregates them into a single score. MIRAI combines established metrics through normalized and direction-aligned dimension scores, which enables direct comparison across models with different architectural and computational profiles. Experiments on healthcare, financial, and socioeconomic datasets show that higher predictive performance does not necessarily imply better overall integrity and responsibility. In several cases, simpler models achieve a stronger cross-dimensional balance than more complex deep tabular architectures. MIRAI provides a compact and practical basis for responsible model selection in regulated settings.
- Abstract(参考訳): しかし、現在のプラクティスでは、説明可能性、公正性、堅牢性、プライバシ、サステナビリティを主に独立して評価している。
MIRAI(Model Integrity and Responsibility Assessment Index)は,これらの5次元の表モデルを制御された比較設定の下で測定し,それらを単一のスコアに集約する統合評価フレームワークである。
MIRAIは、正規化と方向対応のディメンションスコアを通じて確立されたメトリクスを組み合わせることで、異なるアーキテクチャと計算プロファイルを持つモデル間で直接比較することができる。
医療、金融、社会経済のデータセットの実験は、高い予測性能が必ずしも全体的な完全性と責任を損なうものではないことを示している。
いくつかの場合において、より単純なモデルは、より複雑な深い表層アーキテクチャよりも強い次元のバランスを達成する。
MIRAIは、規制された設定における責任あるモデル選択のためのコンパクトで実践的な基盤を提供する。
関連論文リスト
- CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling [61.75914342638658]
CDRRM(Contrast-Driven Reward Model)は、高品質なルーリック生成と優先判断のためのフレームワークである。
この作業は、報酬モデリングのためのスケーラブルで解釈可能で、データ効率のよいパスを提供する。
論文 参考訳(メタデータ) (2026-03-09T07:15:23Z) - IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation [85.56193980646981]
命令追従のための総合的メタ評価ベンチマークであるIF-RewardBenchを提案する。
各命令に対して、複数の応答間の全てのペアの選好を含む選好グラフを構築する。
IF-RewardBenchの実験は、現在の審査モデルに重大な欠陥を呈している。
論文 参考訳(メタデータ) (2026-03-05T02:21:17Z) - How Reliable are Confidence Estimators for Large Reasoning Models? A Systematic Benchmark on High-Stakes Domains [7.845652284569666]
大規模推論モデルの誤校正は、高い領域における信頼性を損なう。
本稿では,6つの LRM から得られた347,496 個の推論トレースの公開リソースである Reasoning Model Confidence Estimation Benchmark (RMCB) を紹介する。
論文 参考訳(メタデータ) (2026-01-13T01:55:48Z) - PerturBench: Benchmarking Machine Learning Models for Cellular Perturbation Analysis [8.785345412061792]
摂動に対する単一細胞転写応答をモデル化するための包括的枠組みを提案する。
私たちのアプローチには、モジュラーでユーザフレンドリなモデル開発と評価プラットフォームが含まれています。
モード崩壊など、広く使われているモデルの限界を強調します。
論文 参考訳(メタデータ) (2024-08-20T07:40:20Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z) - Characterizing Fairness Over the Set of Good Models Under Selective
Labels [69.64662540443162]
同様の性能を実現するモデルセットに対して,予測公正性を特徴付けるフレームワークを開発する。
到達可能なグループレベルの予測格差の範囲を計算するためのトラクタブルアルゴリズムを提供します。
選択ラベル付きデータの実証的な課題に対処するために、我々のフレームワークを拡張します。
論文 参考訳(メタデータ) (2021-01-02T02:11:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。