論文の概要: ScriptoriumWS: A Code Generation Assistant for Weak Supervision
- arxiv url: http://arxiv.org/abs/2502.12366v1
- Date: Mon, 17 Feb 2025 23:07:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:06:30.607723
- Title: ScriptoriumWS: A Code Generation Assistant for Weak Supervision
- Title(参考訳): ScriptoriumWS:Weak Supervisionのためのコード生成アシスタント
- Authors: Tzu-Heng Huang, Catherine Cao, Spencer Schoenberg, Harit Vishwakarma, Nicholas Roberts, Frederic Sala,
- Abstract要約: 我々は、コード生成モデルを用いて、弱い監督源を作るためのコーディングアシスタントとして機能することを主張する。
我々は手作りのソースと比較すると精度を保ち、カバー範囲を大幅に改善する弱い監視システムであるScriptoriumWSを紹介した。
- 参考スコア(独自算出の注目度): 16.121122576534386
- License:
- Abstract: Weak supervision is a popular framework for overcoming the labeled data bottleneck: the need to obtain labels for training data. In weak supervision, multiple noisy-but-cheap sources are used to provide guesses of the label and are aggregated to produce high-quality pseudolabels. These sources are often expressed as small programs written by domain experts -- and so are expensive to obtain. Instead, we argue for using code-generation models to act as coding assistants for crafting weak supervision sources. We study prompting strategies to maximize the quality of the generated sources, settling on a multi-tier strategy that incorporates multiple types of information. We explore how to best combine hand-written and generated sources. Using these insights, we introduce ScriptoriumWS, a weak supervision system that, when compared to hand-crafted sources, maintains accuracy and greatly improves coverage.
- Abstract(参考訳): 弱監視は、ラベル付きデータのボトルネックを克服するための一般的なフレームワークである。
弱い監督では、複数のノイズ・ブット・チープ源がラベルの推測に使われ、高品質な擬似ラベルを生成するために集約される。
これらのソースはドメインの専門家によって書かれた小さなプログラムとして表現されることが多い。
代わりに、コード生成モデルを使用して、弱い監督ソースを構築するためのコーディングアシスタントとして機能することを議論する。
本稿では,複数種類の情報を組み込んだ多層戦略に基づいて,生成した情報源の品質を最大化する戦略について検討する。
手書きと生成されたソースを最もうまく組み合わせる方法について検討する。
これらの知見を用いて,手作りのソースと比較すると,精度を保ち,カバレッジを大幅に改善する,弱い監視システムであるScriptoriumWSを紹介した。
関連論文リスト
- AlchemistCoder: Harmonizing and Eliciting Code Capability by Hindsight Tuning on Multi-source Data [64.69872638349922]
本稿では、マルチソースデータに微調整されたコード生成と一般化機能を備えたコードLLMのシリーズであるAlchemistCoderを紹介する。
本稿では,データ構築過程を微調整データに組み込んで,命令の進化,データフィルタリング,コードレビューなどのコード理解タスクを提案する。
論文 参考訳(メタデータ) (2024-05-29T16:57:33Z) - AutoWS: Automated Weak Supervision Framework for Text Classification [1.748907524043535]
本稿では、ドメインエキスパートへの依存を減らしつつ、弱い監督プロセスの効率を高めるための新しい枠組みを提案する。
本手法では,ラベルクラス毎にラベル付きサンプルの小さなセットが必要であり,多数のラベル付きデータにノイズ付きラベルを割り当てるラベル付き関数のセットを自動生成する。
論文 参考訳(メタデータ) (2023-02-07T07:12:05Z) - Label Propagation with Weak Supervision [47.52032178837098]
古典的ラベル伝搬アルゴリズム(LPA)の新しい解析法について紹介する(Zhu & Ghahramani, 2002)。
基礎となるグラフの局所的幾何学的性質と先行情報の品質の両方を利用する誤差境界を提供する。
提案手法は,従来の半教師付き手法と弱教師付き手法を改良した,弱教師付き分類タスクに応用できることを実証する。
論文 参考訳(メタデータ) (2022-10-07T14:53:02Z) - Generative Modeling Helps Weak Supervision (and Vice Versa) [87.62271390571837]
本稿では,弱い監督と生成的敵ネットワークを融合したモデルを提案する。
弱い監督によるラベル推定と並行して、データの離散変数をキャプチャする。
これは、弱い教師付き合成画像と擬似ラベルによるデータ拡張を可能にする最初のアプローチである。
論文 参考訳(メタデータ) (2022-03-22T20:24:21Z) - Data Consistency for Weakly Supervised Learning [15.365232702938677]
機械学習モデルのトレーニングには、大量の人間が注釈付けしたデータを使用する。
本稿では、雑音ラベル、すなわち弱い信号を処理する新しい弱監督アルゴリズムを提案する。
本研究では,テキストと画像の分類作業において,最先端の弱い監督手法を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2022-02-08T16:48:19Z) - Deep Transfer Learning for Multi-source Entity Linkage via Domain
Adaptation [63.24594955429465]
マルチソースエンティティリンクは、データのクリーニングやユーザ縫合といった、高インパクトなアプリケーションにおいて重要である。
AdaMELは、多ソースエンティティリンクを実行するための一般的なハイレベルな知識を学ぶディープトランスファー学習フレームワークである。
本フレームワークは,教師付き学習に基づく平均的手法よりも8.21%向上した最先端の学習結果を実現する。
論文 参考訳(メタデータ) (2021-10-27T15:20:41Z) - Creating Training Sets via Weak Indirect Supervision [66.77795318313372]
Weak Supervision (WS)フレームワークは、複数の潜在的にノイズの多い監督ソースからトレーニングラベルを合成する。
Weak Indirect Supervision (WIS) は、トレーニングラベルの自動合成のための新しい研究課題である。
我々は,ユーザが提供するラベル関係を利用して間接的な監督源をモデル化し活用する確率論的モデリング手法PLRMを開発した。
論文 参考訳(メタデータ) (2021-10-07T14:09:35Z) - OpinionRank: Extracting Ground Truth Labels from Unreliable Expert
Opinions with Graph-Based Spectral Ranking [2.1930130356902207]
クラウドソーシングは、分散ラベルコレクションを実行するための、ポピュラーで安価で効率的なデータマイニングソリューションとして登場した。
我々は、クラウドソースアノテーションを信頼できるラベルに統合するための、モデルフリーで解釈可能なグラフベースのスペクトルアルゴリズムであるOpinionRankを提案する。
実験の結果,より高パラメータ化アルゴリズムと比較した場合,OpinionRankが好適に動作することがわかった。
論文 参考訳(メタデータ) (2021-02-11T08:12:44Z) - Bayesian Semi-supervised Crowdsourcing [71.20185379303479]
クラウドソーシングは、大規模なデータセットを効率的にラベル付けし、さまざまな学習タスクを実行するための強力なパラダイムとして登場した。
この研究は、半スーパービジョンの2つの体制の下で、半教師付きクラウドソース分類を扱う。
論文 参考訳(メタデータ) (2020-12-20T23:18:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。