論文の概要: Striving for data-model efficiency: Identifying data externalities on
group performance
- arxiv url: http://arxiv.org/abs/2211.06348v1
- Date: Fri, 11 Nov 2022 16:48:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 15:37:28.264518
- Title: Striving for data-model efficiency: Identifying data externalities on
group performance
- Title(参考訳): データモデル効率を追求する: グループパフォーマンスにおけるデータ外部性同定
- Authors: Esther Rolf, Ben Packer, Alex Beutel, Fernando Diaz
- Abstract要約: 信頼できる、効果的で責任ある機械学習システムの構築は、トレーニングデータとモデリング決定の違いが、予測パフォーマンスにどのように影響するかを理解することに集中する。
我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要なサブグループで評価されるパフォーマンスを実際に低下させることができる。
以上の結果から,データ効率が正確かつ信頼性の高い機械学習の鍵となることが示唆された。
- 参考スコア(独自算出の注目度): 75.17591306911015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building trustworthy, effective, and responsible machine learning systems
hinges on understanding how differences in training data and modeling decisions
interact to impact predictive performance. In this work, we seek to better
understand how we might characterize, detect, and design for data-model
synergies. We focus on a particular type of data-model inefficiency, in which
adding training data from some sources can actually lower performance evaluated
on key sub-groups of the population, a phenomenon we refer to as negative data
externalities on group performance. Such externalities can arise in standard
learning settings and can manifest differently depending on conditions between
training set size and model size. Data externalities directly imply a lower
bound on feasible model improvements, yet improving models efficiently requires
understanding the underlying data-model tensions. From a broader perspective,
our results indicate that data-efficiency is a key component of both accurate
and trustworthy machine learning.
- Abstract(参考訳): 信頼できる、効果的、責任のある機械学習システムの構築は、トレーニングデータとモデリング決定の相違が予測パフォーマンスにどのように影響するかを理解することにかかっている。
この研究では、データモデルシナジーの特徴付け、検出、設計についてより深く理解することを目指している。
我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要サブグループで評価されるパフォーマンスを実際に低下させることができる。
このような外部性は、標準的な学習設定で発生し、トレーニングセットのサイズとモデルサイズの間の条件によって異なる。
データ外部性は、実現可能なモデル改善のバウンダリが低いことを意味するが、モデルの改善には基礎となるデータモデルの緊張を理解する必要がある。
より広い視点から見ると、データ効率は正確かつ信頼性の高い機械学習のキーコンポーネントであることを示している。
関連論文リスト
- Efficient Multi-Agent System Training with Data Influence-Oriented Tree Search [59.75749613951193]
木探索とデータ選択の両方をガイドするデータインフルエンス指向木探索(DITS)を提案する。
インフルエンススコアを活用することで、システム改善のための最も影響力のあるデータを効果的に特定する。
非微分不可能な指標に適した影響スコア推定法を導出する。
論文 参考訳(メタデータ) (2025-02-02T23:20:16Z) - Exploring the Impact of Dataset Statistical Effect Size on Model Performance and Data Sample Size Sufficiency [2.444909460562512]
基礎的な記述的統計測度が、データセットが結果モデルのトレーニングにおいてどれだけ効果的かを示すことができるかどうかを、よりよく確かめるために行われた2つの実験について報告する。
以上の結果から,本手法は適切なサンプルサイズや投影モデルの性能を決定する上では有効ではないことが示唆される。
論文 参考訳(メタデータ) (2025-01-05T22:03:46Z) - Optimizing LLMs with Direct Preferences: A Data Efficiency Perspective [4.548047308860141]
本研究では,異なる種類の嗜好データがモデル性能に与える影響について検討する。
収集に費用がかかる大量の好みデータへの依存を減らすことを目的としている。
論文 参考訳(メタデータ) (2024-10-22T00:11:41Z) - Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。
本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文 参考訳(メタデータ) (2024-08-24T18:28:19Z) - Decentralized Learning with Multi-Headed Distillation [12.90857834791378]
プライベートデータによる分散学習は、機械学習の中心的な問題である。
本研究では, 個別の非IDデータを持つ複数のエージェントが相互に学習できる, 蒸留に基づく分散学習手法を提案する。
論文 参考訳(メタデータ) (2022-11-28T21:01:43Z) - Adaptive Sampling Strategies to Construct Equitable Training Datasets [0.7036032466145111]
コンピュータビジョンから自然言語処理までの領域では、機械学習モデルがスタークの相違を示すことが示されている。
これらのパフォーマンスギャップに寄与する要因の1つは、モデルがトレーニングしたデータに表現力の欠如である。
公平なトレーニングデータセットを作成する際の問題を形式化し、この問題に対処するための統計的枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-31T19:19:30Z) - Representation Matters: Assessing the Importance of Subgroup Allocations
in Training Data [85.43008636875345]
訓練データにおける多様な表現は,サブグループのパフォーマンス向上と集団レベルの目標達成の鍵である。
分析と実験は、データセット構成がパフォーマンスにどのように影響するかを説明し、既存のデータにおけるトレンドとドメイン知識を用いて、意図的かつ客観的なデータセット設計を導くのに役立つ構成結果を提供する。
論文 参考訳(メタデータ) (2021-03-05T00:27:08Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。