論文の概要: Data Heterogeneity Modeling for Trustworthy Machine Learning
- arxiv url: http://arxiv.org/abs/2506.00969v1
- Date: Sun, 01 Jun 2025 11:36:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.877133
- Title: Data Heterogeneity Modeling for Trustworthy Machine Learning
- Title(参考訳): 信頼できる機械学習のためのデータ不均一性モデリング
- Authors: Jiashuo Liu, Peng Cui,
- Abstract要約: データの不均一性は、機械学習(ML)システムの性能を決定する上で重要な役割を果たす。
伝統的なアルゴリズムは、しばしばデータセットの固有の多様性を見落としている。
データ多様性の深い理解によって、モデルの堅牢性、公正性、信頼性が向上することを示す。
- 参考スコア(独自算出の注目度): 25.732841312561586
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Data heterogeneity plays a pivotal role in determining the performance of machine learning (ML) systems. Traditional algorithms, which are typically designed to optimize average performance, often overlook the intrinsic diversity within datasets. This oversight can lead to a myriad of issues, including unreliable decision-making, inadequate generalization across different domains, unfair outcomes, and false scientific inferences. Hence, a nuanced approach to modeling data heterogeneity is essential for the development of dependable, data-driven systems. In this survey paper, we present a thorough exploration of heterogeneity-aware machine learning, a paradigm that systematically integrates considerations of data heterogeneity throughout the entire ML pipeline -- from data collection and model training to model evaluation and deployment. By applying this approach to a variety of critical fields, including healthcare, agriculture, finance, and recommendation systems, we demonstrate the substantial benefits and potential of heterogeneity-aware ML. These applications underscore how a deeper understanding of data diversity can enhance model robustness, fairness, and reliability and help model diagnosis and improvements. Moreover, we delve into future directions and provide research opportunities for the whole data mining community, aiming to promote the development of heterogeneity-aware ML.
- Abstract(参考訳): データの不均一性は、機械学習(ML)システムの性能を決定する上で重要な役割を果たす。
通常、平均的なパフォーマンスを最適化するために設計された従来のアルゴリズムは、しばしばデータセットの固有の多様性を見落としている。
この監視は、信頼できない意思決定、異なる領域にわたる不適切な一般化、不公平な結果、誤った科学的推測など、無数の問題を引き起こす可能性がある。
したがって、データの不均一性をモデル化するためのニュアンスなアプローチは、信頼性の高いデータ駆動システムの開発に不可欠である。
本稿では、データ収集やモデルトレーニングからモデル評価、デプロイに至るまで、MLパイプライン全体を通して、データ不均一性の考慮を体系的に統合するパラダイムである、不均一性を考慮した機械学習について、徹底的に調査する。
このアプローチを医療、農業、金融、レコメンデーションシステムなど、さまざまな重要な分野に適用することにより、異種性を考慮したMLの実質的なメリットと可能性を示す。
これらのアプリケーションは、データの多様性をより深く理解することで、モデルの堅牢性、公正性、信頼性が向上し、モデルの診断と改善に役立ちます。
さらに,データマイニングコミュニティ全体での今後の方向性を探求し,異質性を考慮したMLの開発を促進することを目的とした研究機会を提供する。
関連論文リスト
- Measuring Data Diversity for Instruction Tuning: A Systematic Analysis and A Reliable Metric [48.81957145701228]
サンプルレベルの「ノーベルティ」に基づく新しい多様性指標であるNovellSumを提案する。
シミュレーションデータと実世界のデータの両方の実験により、NovellSumは正確に多様性の変動を捉え、命令調整されたモデルの性能と0.97の相関を達成している。
論文 参考訳(メタデータ) (2025-02-24T14:20:22Z) - MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct [148.39859547619156]
我々は,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。
MMEvolは、きめ細かい知覚、認知的推論、相互作用の進化の洗練された組み合わせによって、データ品質を反復的に改善する。
提案手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2024-09-09T17:44:00Z) - Addressing Heterogeneity in Federated Learning: Challenges and Solutions for a Shared Production Environment [1.2499537119440245]
フェデレートラーニング(FL)は、分散データソース間で機械学習モデルをトレーニングするための有望なアプローチとして登場した。
本稿では、FLにおけるデータ不均一性について、製造の文脈で概観する。
本研究は,これらの異種性がモデルトレーニングに与える影響について考察し,その悪影響を緩和するための現在の手法を概観する。
論文 参考訳(メタデータ) (2024-08-18T17:49:44Z) - Deriva-ML: A Continuous FAIRness Approach to Reproducible Machine Learning Models [1.204452887718077]
データ管理ツールが機械学習(ML)アプリケーションに使用されるデータ品質を大幅に改善できることを示す。
本稿では、このようなツールのアーキテクチャと実装を提案し、MLベースのeScience調査を改善するための2つのユースケースを実演する。
論文 参考訳(メタデータ) (2024-06-27T04:42:29Z) - A spectrum of physics-informed Gaussian processes for regression in
engineering [0.0]
センサとデータ全般の可用性は向上していますが、純粋なデータ駆動アプローチから多くのサービス内エンジニアリングシステムや構造を完全に特徴づけることはできません。
本稿では、限られたデータで予測モデルを作成する能力を高めるために、機械学習技術と物理に基づく推論の組み合わせを追求する。
論文 参考訳(メタデータ) (2023-09-19T14:39:03Z) - Heterogeneous Domain Adaptation and Equipment Matching: DANN-based
Alignment with Cyclic Supervision (DBACS) [3.4519649635864584]
この研究は、サイクリック・スーパービジョン(DBACS)アプローチによるドメイン適応ニューラルネットワークを導入している。
DBACSはドメイン適応によるモデル一般化の問題、特に異種データに対処する。
この作業には、サブスペースアライメントや、異種表現を扱う多視点学習も含まれる。
論文 参考訳(メタデータ) (2023-01-03T10:56:25Z) - Multimodal Data Fusion in High-Dimensional Heterogeneous Datasets via
Generative Models [16.436293069942312]
我々は、教師なしの方法で高次元異種データから確率的生成モデルを学習することに興味がある。
本稿では,指数関数的な分布系を通じて異なるデータ型を結合する一般的なフレームワークを提案する。
提案アルゴリズムは、実数値(ガウス)とカテゴリー(マルチノミカル)の特徴を持つ、よく遭遇する異種データセットについて詳細に述べる。
論文 参考訳(メタデータ) (2021-08-27T18:10:31Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。