論文の概要: Structured Exploration and Exploitation of Label Functions for Automated Data Annotation
- arxiv url: http://arxiv.org/abs/2604.08578v1
- Date: Sat, 28 Mar 2026 04:19:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.453746
- Title: Structured Exploration and Exploitation of Label Functions for Automated Data Annotation
- Title(参考訳): 自動データアノテーションのためのラベル関数の構造的探索と爆発
- Authors: Phong Lam, Ha-Linh Nguyen, Thu-Trang Nguyen, Son Nguyen, Hieu Dinh Vo,
- Abstract要約: プログラムラベリングはラベル関数(LF)、すなわちデータセットのトレーニングに弱いラベルを自動的に生成するルールを使用する。
本稿では,多様性と信頼性のバランスをとるプログラムラベリングの自動化フレームワークであるEXPONAを紹介する。
実験の結果、EXPONAは最先端のLF自動生成手法よりも一貫して優れていた。
- 参考スコア(独自算出の注目度): 3.780303340354419
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: High-quality labeled data is critical for training reliable machine learning and deep learning models, yet manual annotation remains costly and error-prone. Programmatic labeling addresses this challenge by using label functions (LFs), i.e., heuristic rules that automatically generate weak labels for training datasets. However, existing automated LF generation methods either rely on large language models (LLMs) to synthesize surface-level heuristics or employ model-based synthesis over hand-crafted primitives. These approaches often result in limited coverage and unreliable label quality. In this paper, we introduce EXPONA, an automated framework for programmatic labeling that formulates LF generation as a principled process balancing diversity and reliability. EXPONA systematically explores multi-level LFs, spanning surface, structural, and semantic perspectives. EXPONA further applies reliability-aware mechanisms to suppress noisy or redundant heuristics while preserving complementary signals. To evaluate EXPONA, we conducted extensive experiments on eleven classification datasets across diverse domains. Experimental results show that EXPONA consistently outperformed state-of-the-art automated LF generation methods. Specifically, EXPONA achieved nearly complete label coverage (up to 98.9%), improved weak label quality by up to 87%, and yielded downstream performance gains of up to 46% in weighted F1. These results indicate that EXPONA's combination of multi-level LF exploration and reliability-aware filtering enabled more consistent label quality and downstream performance across diverse tasks by balancing coverage and precision in the generated LF set.
- Abstract(参考訳): 高品質なラベル付きデータは、信頼できる機械学習とディープラーニングモデルのトレーニングには不可欠だが、手作業によるアノテーションは高価でエラーを起こしやすい。
プログラムラベリングは、ラベル関数(LF)、すなわち、データセットをトレーニングするための弱いラベルを自動的に生成するヒューリスティックルールを使用することによって、この問題に対処する。
しかし、既存の自動LF生成法は、表面レベルのヒューリスティックを合成するために大きな言語モデル(LLM)に依存するか、手作りプリミティブよりもモデルベースの合成を採用する。
これらのアプローチはしばしば、限定的なカバレッジと信頼性の低いラベル品質をもたらす。
本稿では,LF生成を多様性と信頼性のバランスの原則として定式化するプログラムラベリングの自動化フレームワークであるEXPONAを紹介する。
EXPONAは多層LF、表面、構造、意味的な視点を体系的に探索する。
EXPONAはさらに、相補的な信号を保持しながらノイズや冗長なヒューリスティックを抑制するために信頼性に配慮したメカニズムを適用している。
EXPONAを評価するために,さまざまな領域にまたがる11の分類データセットについて広範な実験を行った。
実験の結果,EXPONAは最先端のLF自動生成法より一貫して優れていた。
特に、EXPONAは、ほぼ完全なラベルカバレッジ(98.9%まで)を達成し、弱いラベル品質を最大87%改善し、下流のパフォーマンスは46%まで向上した。
これらの結果から, EXPONAの多レベルLF探索と信頼性を考慮したフィルタリングの組み合わせにより,生成したLF集合のカバレッジと精度のバランスをとることにより,多様なタスクにおけるラベル品質とダウンストリーム性能の整合性が向上したことが示唆された。
関連論文リスト
- Refining Labeling Functions with Limited Labeled Data [18.404750370538963]
プログラム弱監督(PWS)は、ラベルなしデータポイント上のユーザが提供するラベル付け関数(LF)の出力を組み合わせることで、ラベル付けに対する人間の労力を大幅に削減する。
ラベル付きサンプルの小さなセットに基づいてLFを固定する問題について検討する。
我々は,ラベル付き例で最小限の変更を行うことで,LFの集合を修復する新しい手法を開発した。
論文 参考訳(メタデータ) (2025-05-29T14:26:11Z) - Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Online Feature Updates Improve Online (Generalized) Label Shift Adaptation [51.328801874640675]
オンライン特徴更新を用いたオンラインラベルシフト適応法(OLS-OFU)は,自己教師付き学習を利用して特徴抽出プロセスを洗練する。
アルゴリズムを慎重に設計することで、OLS-OFUは改善された特徴を考慮しつつ、文献の結果に類似したオンライン後悔の収束を維持している。
論文 参考訳(メタデータ) (2024-02-05T22:03:25Z) - Leveraging Instance Features for Label Aggregation in Programmatic Weak
Supervision [75.1860418333995]
Programmatic Weak Supervision (PWS) は、トレーニングラベルを効率的に合成するための広く普及したパラダイムとして登場した。
PWSのコアコンポーネントはラベルモデルであり、複数のノイズ管理ソースの出力をラベル関数として集約することで、真のラベルを推論する。
既存の統計ラベルモデルは一般的にLFの出力のみに依存し、基礎となる生成過程をモデル化する際のインスタンスの特徴を無視している。
論文 参考訳(メタデータ) (2022-10-06T07:28:53Z) - Sparse Conditional Hidden Markov Model for Weakly Supervised Named
Entity Recognition [68.68300358332156]
雑音ラベリング機能を評価するために,スパース条件付き隠れマルコフモデル(Sparse-CHMM)を提案する。
Sparse-CHMMは、3段階のトレーニングパイプラインで教師なし学習によって最適化される。
5つの包括的なデータセットで平均F1スコアが3.01向上する。
論文 参考訳(メタデータ) (2022-05-27T20:47:30Z) - ULF: Unsupervised Labeling Function Correction using Cross-Validation
for Weak Supervision [5.566060402907773]
弱監督(WS)は手動データラベリングの代案として費用対効果がある。
教師なしラベル付け関数修正のための新しいアルゴリズムULFを導入する。
ULFは、この割り当てを信頼性の高いクロスバリデーションサンプルに再推定することで、クラスへのLFの割り当てを洗練します。
論文 参考訳(メタデータ) (2022-04-14T10:29:01Z) - Label Augmentation with Reinforced Labeling for Weak Supervision [0.1529342790344802]
本稿では, 強化ラベリング (RL) と呼ばれる新しい手法を提案する。
RLはサンプル間の類似性に基づいてLFがカバーしていないケースに対してLFの出力を増大させる。
いくつかのドメインの実験(YouTubeコメントの分類、ワインの品質、天気予報)により、かなりの利益が得られた。
論文 参考訳(メタデータ) (2022-04-13T14:54:02Z) - Self-Tuning for Data-Efficient Deep Learning [75.34320911480008]
セルフチューニングは、データ効率のよいディープラーニングを可能にする新しいアプローチである。
ラベル付きおよびラベルなしデータの探索と事前訓練されたモデルの転送を統一する。
SSLとTLの5つのタスクをシャープなマージンで上回ります。
論文 参考訳(メタデータ) (2021-02-25T14:56:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。