論文の概要: "Who experiences large model decay and why?" A Hierarchical Framework for Diagnosing Heterogeneous Performance Drift
- arxiv url: http://arxiv.org/abs/2506.00756v1
- Date: Sat, 31 May 2025 23:50:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.572784
- Title: "Who experiences large model decay and why?" A Hierarchical Framework for Diagnosing Heterogeneous Performance Drift
- Title(参考訳): 「誰が大模型崩壊を経験し、なぜか?」不均一な性能低下を診断するための階層的枠組み
- Authors: Harvineet Singh, Fan Xia, Alexej Gossmann, Andrew Chuang, Julian C. Hong, Jean Feng,
- Abstract要約: サブグループ走査型階層推論フレームワーク(SHIFT)を提案する。
ShiFTはパフォーマンス崩壊によって影響を受ける解釈可能な部分群を特定し、効果的に崩壊を緩和する標的作用を提案する。
実世界の実験では、ShiFTは性能劣化による解釈可能な部分群を同定し、効果的に崩壊を緩和する標的作用を提案する。
- 参考スコア(独自算出の注目度): 5.6050509211002
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning (ML) models frequently experience performance degradation when deployed in new contexts. Such degradation is rarely uniform: some subgroups may suffer large performance decay while others may not. Understanding where and how large differences in performance arise is critical for designing targeted corrective actions that mitigate decay for the most affected subgroups while minimizing any unintended effects. Current approaches do not provide such detailed insight, as they either (i) explain how average performance shifts arise or (ii) identify adversely affected subgroups without insight into how this occurred. To this end, we introduce a Subgroup-scanning Hierarchical Inference Framework for performance drifT (SHIFT). SHIFT first asks "Is there any subgroup with unacceptably large performance decay due to covariate/outcome shifts?" (Where?) and, if so, dives deeper to ask "Can we explain this using more detailed variable(subset)-specific shifts?" (How?). In real-world experiments, we find that SHIFT identifies interpretable subgroups affected by performance decay, and suggests targeted actions that effectively mitigate the decay.
- Abstract(参考訳): 機械学習(ML)モデルは、新しいコンテキストにデプロイされた場合、しばしばパフォーマンス劣化を経験する。
そのような分解はまれに均一であり、一部の部分群は大きな性能低下を被るが、他の部分群はそうでない。
パフォーマンスの違いがどれほど大きいかを理解することは、意図しない効果を最小化しつつ、最も影響を受ける部分群の崩壊を緩和する標的となる修正作用を設計する上で重要である。
現在のアプローチでも、そのような詳細な洞察は得られていない。
(i)平均的なパフォーマンスの変化が生じるか、または、
(II) 原因不明の亜群を, どのようにして発生したかの見当もつかないで同定した。
そこで我々は,SHIFT (Performance drifT) のためのサブグループスキャン階層推論フレームワークを提案する。
ShiFT はまず、"共変量/アウトカムシフトによって許容できないほど大きなパフォーマンス減衰を持つ部分群は存在するか?" (Where?) と尋ね、もしそうなら、「より詳細な変数(サブセット)固有のシフトを使ってこれを説明できるのか? (How?) と問いかける。
実世界の実験では、ShiFTは性能劣化による解釈可能な部分群を同定し、効果的に崩壊を緩和する標的作用を提案する。
関連論文リスト
- Subgroups Matter for Robust Bias Mitigation [13.696614072178818]
重要な要素は、しばしば見過ごされるが、多くのバイアス緩和法(部分群の定義)によって共有される重要なステップである。
以上の結果から,サブグループ選択がパフォーマンスに大きく影響し,グループ選択が効果を損なうことが示唆された。
我々の研究は、バイアス緩和における注意深いサブグループ定義の重要性を強調し、機械学習モデルの堅牢性と公正性を改善するための代替レバーとして提示する。
論文 参考訳(メタデータ) (2025-05-27T15:52:58Z) - Robustness May be More Brittle than We Think under Different Degrees of
Distribution Shifts [72.90906474654594]
分散シフトの度合いが異なる場合、モデルの堅牢性はかなり不安定で不整合であることを示す。
我々は,CLIPのような大規模事前学習モデルが,新しい下流タスクの分分分布シフトに敏感であることが観察された。
論文 参考訳(メタデータ) (2023-10-10T13:39:18Z) - Modeling the Q-Diversity in a Min-max Play Game for Robust Optimization [61.39201891894024]
群分布的ロバスト最適化(群 DRO)は、事前定義された群に対する最悪の損失を最小限にすることができる。
グループDROフレームワークをQ-Diversityを提案して再構築する。
インタラクティブなトレーニングモードによって特徴付けられるQ-Diversityは、アノテーションからグループ識別を緩和し、直接パラメータ化を行う。
論文 参考訳(メタデータ) (2023-05-20T07:02:27Z) - Identification of Systematic Errors of Image Classifiers on Rare
Subgroups [12.064692111429494]
組織的エラーは、少数民族の公正性だけでなく、ドメインシフト時の堅牢性と安全性にも影響します。
我々は,テキスト・ツー・イメージ・モデルにおける最近の進歩を活用し,ターゲットモデルの性能が低いサブグループに対するサブグループのテキスト記述("prompts")の空間を探索する。
本稿では, PromptAttackによるサブグループカバレッジと識別可能性について検討し, 高い精度で系統的誤りを識別できることを見出した。
論文 参考訳(メタデータ) (2023-03-09T07:08:25Z) - Deep Hierarchy in Bandits [51.22833900944146]
行動の報酬は、しばしば相関する。
統計的効率を最大化するためには,これらの相関を学習に活用することが重要である。
平均作用報酬の相関が階層的ベイズモデルで表されるこの問題のバンディット変法を定式化する。
論文 参考訳(メタデータ) (2022-02-03T08:15:53Z) - Rethinking Sampling Strategies for Unsupervised Person Re-identification [59.47536050785886]
我々は,同じフレームワーク下での各種サンプリング戦略と損失関数のパフォーマンス差の理由を解析した。
グループサンプリングを提案し、同じクラスのサンプルをグループに集める。
Market-1501、DukeMTMC-reID、MSMT17の実験は、グループサンプリングが最先端の手法に匹敵する性能を達成することを示した。
論文 参考訳(メタデータ) (2021-07-07T05:39:58Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z) - Deconfounding Scores: Feature Representations for Causal Effect
Estimation with Weak Overlap [140.98628848491146]
推定対象の偏りを伴わずに高い重なりを生じさせる,デコンファウンディングスコアを導入する。
分離スコアは観測データで識別可能なゼロ共分散条件を満たすことを示す。
特に,この手法が標準正規化の魅力的な代替となることを示す。
論文 参考訳(メタデータ) (2021-04-12T18:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。