Fugu-MT 論文翻訳(概要): Striving for data-model efficiency: Identifying data externalities on group performance

論文の概要: Striving for data-model efficiency: Identifying data externalities on group performance

arxiv url: http://arxiv.org/abs/2211.06348v1
Date: Fri, 11 Nov 2022 16:48:27 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-14 15:37:28.264518
Title: Striving for data-model efficiency: Identifying data externalities on group performance
Title（参考訳）: データモデル効率を追求する: グループパフォーマンスにおけるデータ外部性同定
Authors: Esther Rolf, Ben Packer, Alex Beutel, Fernando Diaz
Abstract要約: 信頼できる、効果的で責任ある機械学習システムの構築は、トレーニングデータとモデリング決定の違いが、予測パフォーマンスにどのように影響するかを理解することに集中する。我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要なサブグループで評価されるパフォーマンスを実際に低下させることができる。以上の結果から,データ効率が正確かつ信頼性の高い機械学習の鍵となることが示唆された。
参考スコア（独自算出の注目度）: 75.17591306911015
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Building trustworthy, effective, and responsible machine learning systems hinges on understanding how differences in training data and modeling decisions interact to impact predictive performance. In this work, we seek to better understand how we might characterize, detect, and design for data-model synergies. We focus on a particular type of data-model inefficiency, in which adding training data from some sources can actually lower performance evaluated on key sub-groups of the population, a phenomenon we refer to as negative data externalities on group performance. Such externalities can arise in standard learning settings and can manifest differently depending on conditions between training set size and model size. Data externalities directly imply a lower bound on feasible model improvements, yet improving models efficiently requires understanding the underlying data-model tensions. From a broader perspective, our results indicate that data-efficiency is a key component of both accurate and trustworthy machine learning.
Abstract（参考訳）: 信頼できる、効果的、責任のある機械学習システムの構築は、トレーニングデータとモデリング決定の相違が予測パフォーマンスにどのように影響するかを理解することにかかっている。この研究では、データモデルシナジーの特徴付け、検出、設計についてより深く理解することを目指している。我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要サブグループで評価されるパフォーマンスを実際に低下させることができる。このような外部性は、標準的な学習設定で発生し、トレーニングセットのサイズとモデルサイズの間の条件によって異なる。データ外部性は、実現可能なモデル改善のバウンダリが低いことを意味するが、モデルの改善には基礎となるデータモデルの緊張を理解する必要がある。より広い視点から見ると、データ効率は正確かつ信頼性の高い機械学習のキーコンポーネントであることを示している。

関連論文リスト

Using External knowledge to Enhanced PLM for Semantic Matching [38.125341836302525]
本稿では,事前学習された意味的関連性判別モデルを強化するために,外部知識を用いる。 10個の公開データセットに対する実験結果から,本手法が一貫した性能向上を実現することが示された。
論文参考訳（メタデータ） (2025-05-10T11:33:48Z)
Efficient Multi-Agent System Training with Data Influence-Oriented Tree Search [59.75749613951193]
木探索とデータ選択の両方をガイドするデータインフルエンス指向木探索(DITS)を提案する。インフルエンススコアを活用することで、システム改善のための最も影響力のあるデータを効果的に特定する。非微分不可能な指標に適した影響スコア推定法を導出する。
論文参考訳（メタデータ） (2025-02-02T23:20:16Z)
Exploring the Impact of Dataset Statistical Effect Size on Model Performance and Data Sample Size Sufficiency [2.444909460562512]
基礎的な記述的統計測度が、データセットが結果モデルのトレーニングにおいてどれだけ効果的かを示すことができるかどうかを、よりよく確かめるために行われた2つの実験について報告する。以上の結果から,本手法は適切なサンプルサイズや投影モデルの性能を決定する上では有効ではないことが示唆される。
論文参考訳（メタデータ） (2025-01-05T22:03:46Z)
Optimizing LLMs with Direct Preferences: A Data Efficiency Perspective [4.548047308860141]
本研究では,異なる種類の嗜好データがモデル性能に与える影響について検討する。収集に費用がかかる大量の好みデータへの依存を減らすことを目的としている。
論文参考訳（メタデータ） (2024-10-22T00:11:41Z)
Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文参考訳（メタデータ） (2024-08-24T18:28:19Z)
PairCFR: Enhancing Model Training on Paired Counterfactually Augmented Data through Contrastive Learning [49.60634126342945]
Counterfactually Augmented Data (CAD)は、既存のデータサンプルのラベルを他のクラスに戻すのに、最小限かつ十分な修正を適用することで、新しいデータサンプルを作成する。近年の研究では、CADを用いたトレーニングが、他の重要な文脈情報を無視しながら、モデルが修正機能に過度にフォーカスする可能性があることが示されている。我々は、対実的手がかりの学習に加えて、グローバルな特徴アライメントを促進するために、対照的な学習を採用する。
論文参考訳（メタデータ） (2024-06-09T07:29:55Z)
Decentralized Learning with Multi-Headed Distillation [12.90857834791378]
プライベートデータによる分散学習は、機械学習の中心的な問題である。本研究では, 個別の非IDデータを持つ複数のエージェントが相互に学習できる, 蒸留に基づく分散学習手法を提案する。
論文参考訳（メタデータ） (2022-11-28T21:01:43Z)
Adaptive Sampling Strategies to Construct Equitable Training Datasets [0.7036032466145111]
コンピュータビジョンから自然言語処理までの領域では、機械学習モデルがスタークの相違を示すことが示されている。これらのパフォーマンスギャップに寄与する要因の1つは、モデルがトレーニングしたデータに表現力の欠如である。公平なトレーニングデータセットを作成する際の問題を形式化し、この問題に対処するための統計的枠組みを提案する。
論文参考訳（メタデータ） (2022-01-31T19:19:30Z)
Representation Matters: Assessing the Importance of Subgroup Allocations in Training Data [85.43008636875345]
訓練データにおける多様な表現は,サブグループのパフォーマンス向上と集団レベルの目標達成の鍵である。分析と実験は、データセット構成がパフォーマンスにどのように影響するかを説明し、既存のデータにおけるトレンドとドメイン知識を用いて、意図的かつ客観的なデータセット設計を導くのに役立つ構成結果を提供する。
論文参考訳（メタデータ） (2021-03-05T00:27:08Z)
SelfHAR: Improving Human Activity Recognition through Self-training with Unlabeled Data [9.270269467155547]
SelfHARは、ラベルなしデータセットを利用して小さなラベル付きデータセットを補完する半教師付きモデルである。提案手法は教師による自己学習と,ラベル付きデータセットとラベル付きデータセットの知識を融合する。 SelfHARはデータ効率が高く、教師付きアプローチの10倍のラベル付きデータを使用して、同様のパフォーマンスを実現する。
論文参考訳（メタデータ） (2021-02-11T15:40:35Z)
Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文参考訳（メタデータ） (2021-02-09T20:28:35Z)
How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文参考訳（メタデータ） (2020-05-25T12:13:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。