Fugu-MT 論文翻訳(概要): Understanding Programmatic Weak Supervision via Source-aware Influence Function

論文の概要: Understanding Programmatic Weak Supervision via Source-aware Influence Function

arxiv url: http://arxiv.org/abs/2205.12879v1
Date: Wed, 25 May 2022 15:57:24 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-26 14:03:54.930658
Title: Understanding Programmatic Weak Supervision via Source-aware Influence Function
Title（参考訳）: 音源認識影響関数によるプログラム弱スーパービジョンの理解
Authors: Jieyu Zhang, Haonan Wang, Cheng-Yu Hsieh, Alexander Ratner
Abstract要約: Programmatic Weak Supervision (PWS)は、複数の弱い監督ソースのソース投票を確率的トレーニングラベルに集約する。エンドモデルのトレーニング目標を分解し、各(データ、ソース、クラス)に関連する影響を計算するために、インフルエンス関数(IF)を構築します。これらのプリミティブな影響スコアは、ソース投票、監督ソース、トレーニングデータなど、個々のコンポーネントPWSの影響を推定するために使用することができる。
参考スコア（独自算出の注目度）: 76.74549130841383
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Programmatic Weak Supervision (PWS) aggregates the source votes of multiple weak supervision sources into probabilistic training labels, which are in turn used to train an end model. With its increasing popularity, it is critical to have some tool for users to understand the influence of each component (e.g., the source vote or training data) in the pipeline and interpret the end model behavior. To achieve this, we build on Influence Function (IF) and propose source-aware IF, which leverages the generation process of the probabilistic labels to decompose the end model's training objective and then calculate the influence associated with each (data, source, class) tuple. These primitive influence score can then be used to estimate the influence of individual component of PWS, such as source vote, supervision source, and training data. On datasets of diverse domains, we demonstrate multiple use cases: (1) interpreting incorrect predictions from multiple angles that reveals insights for debugging the PWS pipeline, (2) identifying mislabeling of sources with a gain of 9%-37% over baselines, and (3) improving the end model's generalization performance by removing harmful components in the training objective (13%-24% better than ordinary IF).
Abstract（参考訳）: Programmatic Weak Supervision (PWS)は、複数の弱い監督ソースのソース投票を確率的トレーニングラベルに集約し、エンドモデルをトレーニングするために使用される。人気が高まっているため、ユーザがパイプライン内の各コンポーネント(例えば、ソース投票やトレーニングデータ)の影響を理解し、エンドモデルの振る舞いを解釈するためのツールを持つことが重要です。これを実現するために,インフルエンス関数(if)を構築し,確率的ラベルの生成プロセスを活用して最終モデルのトレーニング目標を分解し,各(データ,ソース,クラス)タプルに関連する影響を計算するソースアウェアifを提案する。これらのプリミティブな影響スコアは、ソース投票、監督源、トレーニングデータなど、PWSの個々のコンポーネントの影響を推定するために使用することができる。多様な領域のデータセットでは,(1)PWSパイプラインをデバッグするための洞察を明らかにする複数の角度から誤予測を解釈し,(2)ベースラインよりも9%～37%向上したソースの誤ラベルを同定し,(3)トレーニング対象の有害成分を除去することにより,エンドモデルの一般化性能を改善する(通常のIFよりも13%～24%向上)。

関連論文リスト

Global Intervention and Distillation for Federated Out-of-Distribution Generalization [7.905159090314987]
連合学習における属性スキューは、地元のモデルを非因果関係の学習に集中させる。本稿では,背景とラベルの急激な関係を断ち切るために,バックドア調整に多様な属性特徴を利用するFedGIDを提案する。 3つのデータセットの実験結果から、FedGIDは、見えないデータで主対象に集中するモデルの能力を向上することを示した。
論文参考訳（メタデータ） (2025-04-01T14:36:24Z)
Variational Bayesian Personalized Ranking [39.24591060825056]
変分的BPRは、確率最適化、ノイズ低減、人気低下を統合する、新しく実装が容易な学習目標である。本稿では,問題サンプルからの雑音を効果的に低減するために,注目に基づく競合学習手法を提案する。実験により、人気のあるバックボーンレコメンデーションモデルにおける変分BPRの有効性を実証する。
論文参考訳（メタデータ） (2025-03-14T04:22:01Z)
Improving Influence-based Instruction Tuning Data Selection for Balanced Learning of Diverse Capabilities [15.92881751491451]
影響に基づく手法は,(1)モデルの予測に対する各トレーニング例の貢献を推定することで,(1)達成の約束を示すが,(2)に苦慮することが多い。系統的な調査により、この過小評価は、特定のタスクが本質的に他のタスクよりも大きな影響を持つ固有のバイアスに起因することが判明した。その結果、データ選択は、しばしばこれらのタスクに偏りがあり、モデルの性能を害するだけでなく、非意図的に、これらの高影響タスク自体のパフォーマンスを損なう。
論文参考訳（メタデータ） (2025-01-21T14:00:43Z)
A Versatile Influence Function for Data Attribution with Non-Decomposable Loss [3.1615846013409925]
本稿では,非分解不能な損失を学習した機械学習モデルに対して,直接適用可能なVersatile Influence Function (VIF)を提案する。 VIFはデータ属性の大幅な進歩を表しており、幅広い機械学習パラダイムにまたがる効率的な影響関数ベースの属性を可能にする。
論文参考訳（メタデータ） (2024-12-02T09:59:01Z)
In2Core: Leveraging Influence Functions for Coreset Selection in Instruction Finetuning of Large Language Models [37.45103473809928]
In2Coreアルゴリズムは,トレーニングモデルと評価サンプルの相関関係を解析し,コアセットを選択する。 LLMの微調整データにアルゴリズムを適用することで、トレーニングデータの50%で同様の性能を実現することができる。
論文参考訳（メタデータ） (2024-08-07T05:48:05Z)
Pre-training by Predicting Program Dependencies for Vulnerability Analysis Tasks [12.016029378106131]
本研究は、制御依存予測(CDP)とデータ依存予測(DDP)という、2つの新しい事前学習目標を提案する。 CDPとDDPは、それぞれステートメントレベルのコントロール依存性とトークンレベルのデータ依存関係を、ソースコードのみに基づいてコードスニペットで予測することを目的としている。事前トレーニング後、CDPとDDPは、微調整中に脆弱なコードの理解を高めることができ、部分関数と完全関数の両方に対する依存分析を直接実行できる。
論文参考訳（メタデータ） (2024-02-01T15:18:19Z)
Influence Scores at Scale for Efficient Language Data Sampling [3.072340427031969]
影響スコア」は、データの重要なサブセットを特定するために使われる。本稿では,言語分類タスクにおける影響スコアの適用性について検討する。
論文参考訳（メタデータ） (2023-11-27T20:19:22Z)
Evaluating and Incentivizing Diverse Data Contributions in Collaborative Learning [89.21177894013225]
フェデレートされた学習モデルがうまく機能するためには、多様で代表的なデータセットを持つことが不可欠である。データの多様性を定量化するために用いられる統計的基準と、使用するフェデレート学習アルゴリズムの選択が、結果の平衡に有意な影響を及ぼすことを示す。我々はこれを活用して、データ収集者がグローバルな人口を代表するデータに貢献することを奨励する、シンプルな最適なフェデレーション学習機構を設計する。
論文参考訳（メタデータ） (2023-06-08T23:38:25Z)
Think Twice: Measuring the Efficiency of Eliminating Prediction Shortcuts of Question Answering Models [3.9052860539161918]
そこで本研究では,任意の特徴量に対するモデルのスケール依存度を簡易に測定する手法を提案する。質問回答(QA: Question Answering)における各種事前学習モデルとデバイアス法について、既知の予測バイアスと新たに発見された予測バイアスの集合に対するロバスト性を評価する。既存のデバイアス法は、選択された刺激的特徴への依存を軽減することができるが、これらの手法のOOD性能向上は、偏りのある特徴への依存を緩和することによって説明できない。
論文参考訳（メタデータ） (2023-05-11T14:35:00Z)
Supervised Contrastive Learning for Affect Modelling [2.570570340104555]
情報に影響を及ぼすことを考慮に入れた訓練表現のための3つの異なる教師付きコントラスト学習手法を導入する。その結果、コントラスト学習の表現能力と、影響モデルの精度を高めるための効率が示された。
論文参考訳（メタデータ） (2022-08-25T17:40:19Z)
Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文参考訳（メタデータ） (2022-01-11T23:01:12Z)
Adversarial Feature Augmentation and Normalization for Visual Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文参考訳（メタデータ） (2021-03-22T20:36:34Z)
Toward Understanding the Influence of Individual Clients in Federated Learning [52.07734799278535]
フェデレーションラーニングにより、クライアントはプライベートデータを中央サーバーに送信することなく、グローバルモデルを共同でトレーニングできます。 em-Influenceという新しい概念を定義し、パラメータに対するこの影響を定量化し、このメトリクスを推定する効果的な効率的なモデルを提案しました。
論文参考訳（メタデータ） (2020-12-20T14:34:36Z)
Estimating Structural Target Functions using Machine Learning and Influence Functions [103.47897241856603]
統計モデルから特定可能な関数として生じる対象関数の統計的機械学習のための新しい枠組みを提案する。このフレームワークは問題とモデルに依存しないものであり、応用統計学における幅広い対象パラメータを推定するのに使用できる。我々は、部分的に観測されていない情報を持つランダム/二重ロバストな問題において、いわゆる粗大化に特に焦点をあてた。
論文参考訳（メタデータ） (2020-08-14T16:48:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。