論文の概要: FLAM: Evaluating Model Performance with Aggregatable Measures in Federated Learning
- arxiv url: http://arxiv.org/abs/2605.07962v1
- Date: Fri, 08 May 2026 16:25:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.19916
- Title: FLAM: Evaluating Model Performance with Aggregatable Measures in Federated Learning
- Title(参考訳): FLAM:フェデレーション学習における凝集度によるモデル性能の評価
- Authors: Fabian Stricker, Jose A. Peregrina, David Bermbach, Christian Zirpins,
- Abstract要約: フェデレートラーニング(FL)では、参加者間でデータが分散しているため、パフォーマンスを評価することが難しい。
鍵となる課題は、例えば、参加者ごとの局所的なサンプルに基づく重み付け平均化のような共通集約戦略が、必ずしも集中的な評価と同じ結果を生み出すとは限らないことである。
既存のパフォーマンス評価の定義は、主に正確性に適合し、他のメトリクスに一般化しないため、参加者ベースと集中型評価の矛盾が生じる。
本研究では,グローバルなテストデータセットを必要とせずに,集中的な評価結果と同じ結果を得られるアグリガタブル尺度に基づく性能評価手法であるFLAMを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Performance evaluation is essential for assessing the quality of machine learning (ML) models and guiding deployment decisions. In federated learning (FL), assessing the performance is challenging because data are distributed across participants. Consequently, the coordinator must rely on locally computed evaluation metrics and aggregate them to assess the global model. A key challenge is that common aggregation strategies, such as weighted averaging based on the local samples per participant, do not always produce the same results as centralized evaluation. Existing definitions of performance evaluation are largely tailored to accuracy and do not generalize to other metrics, leading to inconsistencies between participant-based and centralized evaluation. However, such discrepancies are inconsistent with the FL objective and lead to a wrong calculation of the metric. To address this issue, we examine the underlying reasons for these discrepancies and propose FLAM, a performance evaluation method based on aggregatable measures that yields the same results as centralized evaluation without the need for a global test dataset.
- Abstract(参考訳): パフォーマンス評価は、機械学習(ML)モデルの品質を評価し、デプロイメントの決定を導く上で不可欠である。
フェデレートラーニング(FL)では、参加者間でデータが分散しているため、パフォーマンスを評価することが難しい。
その結果、コーディネータは局所的に計算された評価指標に依存し、それらを集約してグローバルモデルを評価する必要がある。
鍵となる課題は、例えば、参加者ごとの局所的なサンプルに基づく重み付け平均化のような共通集約戦略が、必ずしも集中的な評価と同じ結果を生み出すとは限らないことである。
既存のパフォーマンス評価の定義は、主に正確性に適合し、他のメトリクスに一般化しないため、参加者ベースと集中型評価の矛盾が生じる。
しかし、そのような不一致は FL の目的とは矛盾し、計量の間違った計算につながる。
この問題に対処するために,これらの不一致の原因について検討し,グローバルなテストデータセットを必要とせず,集中的な評価結果と同じ結果を得られる集約可能な尺度に基づく性能評価手法であるFLAMを提案する。
関連論文リスト
- When Fairness Metrics Disagree: Evaluating the Reliability of Demographic Fairness Assessment in Machine Learning [0.0]
機械学習モデルにおける階層バイアスの系統的マルチメトリック分析を行うことにより、公平性評価の整合性を検討する。
結果から,評価値の妥当性は指標の選択によって大きく異なっており,モデルバイアスに関する矛盾した結論が得られた。
これらの知見は、現在の公正度評価の実践において重要な限界を浮き彫りにしており、信頼性の高いバイアス評価にはシングルメトリックレポートが不十分であることを示唆している。
論文 参考訳(メタデータ) (2026-04-16T14:07:37Z) - A Theoretical Framework for Statistical Evaluability of Generative Models [57.9316356505791]
本稿では、生成モデルを評価するための理論的枠組みを導入し、一般的なメトリクスに対する評価結果を確立する。
テストベースのメトリクス、例えば積分確率測定(IPM)とレニイ発散(Rényi divergences)の2つのカテゴリについて検討する。
任意の有界テストクラスに対するIPMは、乗法および加法近似誤差まで有限標本から評価できることを示す。
対照的に、レニイとKLの発散は、希少事象によってその値が批判的に決定されるため、有限標本から評価できない。
論文 参考訳(メタデータ) (2026-04-07T01:53:59Z) - A novel Information-Driven Strategy for Optimal Regression Assessment [3.602068950014566]
機械学習(ML)では、回帰アルゴリズムはデータに基づく損失関数の最小化を目的としている。
グローバルな最適性の達成性を保証するデータ駆動評価手法は存在しない。
この研究は、回帰アルゴリズムを評価するための新しいデータ駆動フレームワークであるInformation Teacherを紹介する。
論文 参考訳(メタデータ) (2025-10-16T02:01:32Z) - CCE: Confidence-Consistency Evaluation for Time Series Anomaly Detection [56.302586730134806]
本稿では,新しい評価指標である信頼性・一貫性評価(CCE)を紹介する。
CCEは同時に、予測の信頼性と不確実性を測定する。
RankEvalは、さまざまなメトリクスのランキング機能を比較するためのベンチマークです。
論文 参考訳(メタデータ) (2025-09-01T03:38:38Z) - Objective Metrics for Evaluating Large Language Models Using External Data Sources [4.574672973076743]
本稿では,異なるセメータにまたがるクラステキスト資料から得られた主観的指標を活用するための枠組みを提案する。
このフレームワークは、スコアリングにおける自動化と透明性を強調し、人間の解釈への依存を減らす。
本手法は, 主観評価手法の限界に対処し, 教育, 科学, その他の高度な分野のパフォーマンス評価のためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-08-01T02:24:19Z) - Understanding challenges to the interpretation of disaggregated evaluations of algorithmic fairness [49.35494016290887]
関係する人口を表わすが、実世界の格差を反映するデータである場合、サブグループ間での平等なパフォーマンスは、信頼できない公平さの尺度であることを示す。
本フレームワークでは, 因果関係の明示的な仮定と分析を相補して, 相反や分布変化の制御を提案する。
論文 参考訳(メタデータ) (2025-06-04T17:40:31Z) - Monocle: Hybrid Local-Global In-Context Evaluation for Long-Text Generation with Uncertainty-Based Active Learning [63.531262595858]
分数的・対数的アプローチは、総合的な評価タスクを局所的なスコアリングタスクに分割し、続いて最終的なグローバルアセスメントを行う。
局所的およびグローバルな評価の両面での性能を高めるために,人間のアノテーションを活用するハイブリッド・イン・コンテキスト・ラーニング・アプローチを導入する。
最後に,人間のアノテーションに対するデータサンプルを効率的に選択する不確実性に基づく能動学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-05-26T16:39:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。