論文の概要: Understanding Programmatic Weak Supervision via Source-aware Influence
Function
- arxiv url: http://arxiv.org/abs/2205.12879v1
- Date: Wed, 25 May 2022 15:57:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 14:03:54.930658
- Title: Understanding Programmatic Weak Supervision via Source-aware Influence
Function
- Title(参考訳): 音源認識影響関数によるプログラム弱スーパービジョンの理解
- Authors: Jieyu Zhang, Haonan Wang, Cheng-Yu Hsieh, Alexander Ratner
- Abstract要約: Programmatic Weak Supervision (PWS)は、複数の弱い監督ソースのソース投票を確率的トレーニングラベルに集約する。
エンドモデルのトレーニング目標を分解し、各(データ、ソース、クラス)に関連する影響を計算するために、インフルエンス関数(IF)を構築します。
これらのプリミティブな影響スコアは、ソース投票、監督ソース、トレーニングデータなど、個々のコンポーネントPWSの影響を推定するために使用することができる。
- 参考スコア(独自算出の注目度): 76.74549130841383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Programmatic Weak Supervision (PWS) aggregates the source votes of multiple
weak supervision sources into probabilistic training labels, which are in turn
used to train an end model. With its increasing popularity, it is critical to
have some tool for users to understand the influence of each component (e.g.,
the source vote or training data) in the pipeline and interpret the end model
behavior. To achieve this, we build on Influence Function (IF) and propose
source-aware IF, which leverages the generation process of the probabilistic
labels to decompose the end model's training objective and then calculate the
influence associated with each (data, source, class) tuple. These primitive
influence score can then be used to estimate the influence of individual
component of PWS, such as source vote, supervision source, and training data.
On datasets of diverse domains, we demonstrate multiple use cases: (1)
interpreting incorrect predictions from multiple angles that reveals insights
for debugging the PWS pipeline, (2) identifying mislabeling of sources with a
gain of 9%-37% over baselines, and (3) improving the end model's generalization
performance by removing harmful components in the training objective (13%-24%
better than ordinary IF).
- Abstract(参考訳): Programmatic Weak Supervision (PWS)は、複数の弱い監督ソースのソース投票を確率的トレーニングラベルに集約し、エンドモデルをトレーニングするために使用される。
人気が高まっているため、ユーザがパイプライン内の各コンポーネント(例えば、ソース投票やトレーニングデータ)の影響を理解し、エンドモデルの振る舞いを解釈するためのツールを持つことが重要です。
これを実現するために,インフルエンス関数(if)を構築し,確率的ラベルの生成プロセスを活用して最終モデルのトレーニング目標を分解し,各(データ,ソース,クラス)タプルに関連する影響を計算するソースアウェアifを提案する。
これらのプリミティブな影響スコアは、ソース投票、監督源、トレーニングデータなど、PWSの個々のコンポーネントの影響を推定するために使用することができる。
多様な領域のデータセットでは,(1)PWSパイプラインをデバッグするための洞察を明らかにする複数の角度から誤予測を解釈し,(2)ベースラインよりも9%~37%向上したソースの誤ラベルを同定し,(3)トレーニング対象の有害成分を除去することにより,エンドモデルの一般化性能を改善する(通常のIFよりも13%~24%向上)。
関連論文リスト
- In2Core: Leveraging Influence Functions for Coreset Selection in Instruction Finetuning of Large Language Models [37.45103473809928]
In2Coreアルゴリズムは,トレーニングモデルと評価サンプルの相関関係を解析し,コアセットを選択する。
LLMの微調整データにアルゴリズムを適用することで、トレーニングデータの50%で同様の性能を実現することができる。
論文 参考訳(メタデータ) (2024-08-07T05:48:05Z) - Pre-training by Predicting Program Dependencies for Vulnerability
Analysis Tasks [12.016029378106131]
本研究は、制御依存予測(CDP)とデータ依存予測(DDP)という、2つの新しい事前学習目標を提案する。
CDPとDDPは、それぞれステートメントレベルのコントロール依存性とトークンレベルのデータ依存関係を、ソースコードのみに基づいてコードスニペットで予測することを目的としている。
事前トレーニング後、CDPとDDPは、微調整中に脆弱なコードの理解を高めることができ、部分関数と完全関数の両方に対する依存分析を直接実行できる。
論文 参考訳(メタデータ) (2024-02-01T15:18:19Z) - Influence Scores at Scale for Efficient Language Data Sampling [3.072340427031969]
影響スコア」は、データの重要なサブセットを特定するために使われる。
本稿では,言語分類タスクにおける影響スコアの適用性について検討する。
論文 参考訳(メタデータ) (2023-11-27T20:19:22Z) - Evaluating and Incentivizing Diverse Data Contributions in Collaborative
Learning [89.21177894013225]
フェデレートされた学習モデルがうまく機能するためには、多様で代表的なデータセットを持つことが不可欠である。
データの多様性を定量化するために用いられる統計的基準と、使用するフェデレート学習アルゴリズムの選択が、結果の平衡に有意な影響を及ぼすことを示す。
我々はこれを活用して、データ収集者がグローバルな人口を代表するデータに貢献することを奨励する、シンプルな最適なフェデレーション学習機構を設計する。
論文 参考訳(メタデータ) (2023-06-08T23:38:25Z) - Think Twice: Measuring the Efficiency of Eliminating Prediction
Shortcuts of Question Answering Models [3.9052860539161918]
そこで本研究では,任意の特徴量に対するモデルのスケール依存度を簡易に測定する手法を提案する。
質問回答(QA: Question Answering)における各種事前学習モデルとデバイアス法について、既知の予測バイアスと新たに発見された予測バイアスの集合に対するロバスト性を評価する。
既存のデバイアス法は、選択された刺激的特徴への依存を軽減することができるが、これらの手法のOOD性能向上は、偏りのある特徴への依存を緩和することによって説明できない。
論文 参考訳(メタデータ) (2023-05-11T14:35:00Z) - Supervised Contrastive Learning for Affect Modelling [2.570570340104555]
情報に影響を及ぼすことを考慮に入れた訓練表現のための3つの異なる教師付きコントラスト学習手法を導入する。
その結果、コントラスト学習の表現能力と、影響モデルの精度を高めるための効率が示された。
論文 参考訳(メタデータ) (2022-08-25T17:40:19Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Toward Understanding the Influence of Individual Clients in Federated
Learning [52.07734799278535]
フェデレーションラーニングにより、クライアントはプライベートデータを中央サーバーに送信することなく、グローバルモデルを共同でトレーニングできます。
em-Influenceという新しい概念を定義し、パラメータに対するこの影響を定量化し、このメトリクスを推定する効果的な効率的なモデルを提案しました。
論文 参考訳(メタデータ) (2020-12-20T14:34:36Z) - Estimating Structural Target Functions using Machine Learning and
Influence Functions [103.47897241856603]
統計モデルから特定可能な関数として生じる対象関数の統計的機械学習のための新しい枠組みを提案する。
このフレームワークは問題とモデルに依存しないものであり、応用統計学における幅広い対象パラメータを推定するのに使用できる。
我々は、部分的に観測されていない情報を持つランダム/二重ロバストな問題において、いわゆる粗大化に特に焦点をあてた。
論文 参考訳(メタデータ) (2020-08-14T16:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。