論文の概要: Interactive Machine Teaching by Labeling Rules and Instances
- arxiv url: http://arxiv.org/abs/2409.05199v1
- Date: Sun, 8 Sep 2024 19:24:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 16:58:34.082374
- Title: Interactive Machine Teaching by Labeling Rules and Instances
- Title(参考訳): ルールと事例のラベル付けによる対話型機械教育
- Authors: Giannis Karamanolakis, Daniel Hsu, Luis Gravano,
- Abstract要約: 弱教師付き学習は、専門家が設計したラベル付けルールを使用することで、データのラベル付けコストを削減することを目的としている。
既存の手法では、専門家が単一のショットで効果的なルールを設計する必要がある。
専門家がルールを書くのに限られた時間を費やすべきか、アクティブな学習を通じてインスタンスラベルを提供するべきかは、まだ明らかな疑問である。
- 参考スコア(独自算出の注目度): 12.828484302109436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weakly supervised learning aims to reduce the cost of labeling data by using expert-designed labeling rules. However, existing methods require experts to design effective rules in a single shot, which is difficult in the absence of proper guidance and tooling. Therefore, it is still an open question whether experts should spend their limited time writing rules or instead providing instance labels via active learning. In this paper, we investigate how to exploit an expert's limited time to create effective supervision. First, to develop practical guidelines for rule creation, we conduct an exploratory analysis of diverse collections of existing expert-designed rules and find that rule precision is more important than coverage across datasets. Second, we compare rule creation to individual instance labeling via active learning and demonstrate the importance of both across 6 datasets. Third, we propose an interactive learning framework, INTERVAL, that achieves efficiency by automatically extracting candidate rules based on rich patterns (e.g., by prompting a language model), and effectiveness by soliciting expert feedback on both candidate rules and individual instances. Across 6 datasets, INTERVAL outperforms state-of-the-art weakly supervised approaches by 7% in F1. Furthermore, it requires as few as 10 queries for expert feedback to reach F1 values that existing active learning methods cannot match even with 100 queries.
- Abstract(参考訳): 弱教師付き学習は、専門家が設計したラベル付けルールを使用することで、データのラベル付けコストを削減することを目的としている。
しかし、既存の手法では、専門家が単一のショットで効果的なルールを設計する必要がある。
したがって、専門家がルールを書くのに限られた時間を費やすべきか、アクティブな学習を通じてインスタンスラベルを提供するべきかは、まだ明らかな疑問である。
本稿では,専門家の限られた時間を利用して効果的な監督を行う方法について検討する。
まず、ルール作成のための実践的ガイドラインを開発するために、既存の専門家が設計したルールの多様なコレクションを探索的に分析し、データセットのカバレッジよりもルール精度が重要であることを確認する。
第二に、ルール作成とアクティブラーニングによる個別のインスタンスラベリングを比較し、どちらも6つのデータセットにまたがる重要性を実証する。
第3に、豊かなパターン(例えば、言語モデルを促すことによって)に基づいて候補ルールを自動的に抽出し、候補ルールと個々のインスタンスの両方に専門家のフィードバックを求めることによって効率を向上する対話型学習フレームワーク、InterVALを提案する。
6つのデータセットにまたがって、InterVALは、最先端の教師付きアプローチをF1で7%上回っている。
さらに、既存のアクティブラーニングメソッドが100のクエリと一致できないF1値に到達するには、専門家のフィードバックに10のクエリが必要である。
関連論文リスト
- Probably Approximately Precision and Recall Learning [62.912015491907994]
精度とリコールは機械学習の基本的な指標である。
一方的なフィードバック – トレーニング中にのみ肯定的な例が観察される – は,多くの実践的な問題に固有のものだ。
PAC学習フレームワークでは,各仮説をグラフで表現し,エッジは肯定的な相互作用を示す。
論文 参考訳(メタデータ) (2024-11-20T04:21:07Z) - One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。
我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [58.617025733655005]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文 参考訳(メタデータ) (2023-03-09T09:05:47Z) - Socratic Pretraining: Question-Driven Pretraining for Controllable
Summarization [89.04537372465612]
ソクラティック事前訓練は、要約タスクにおける制御性を改善するために設計された、質問駆動で教師なし事前訓練の目的である。
以上の結果から,Socraticプレトレーニングはタスク固有のラベル付きデータ要件を半分に削減することがわかった。
論文 参考訳(メタデータ) (2022-12-20T17:27:10Z) - I Know Therefore I Score: Label-Free Crafting of Scoring Functions using
Constraints Based on Domain Expertise [6.26476800426345]
多次元数値データからスコアリング関数を学習するためのラベルなし実践的手法を提案する。
このアプローチでは、ドメインエキスパートの洞察とビジネスルールを、容易に観察可能で特定可能な制約という形で取り入れています。
このような制約を、スコアリング関数を学習しながら同時に最適化された損失関数に変換する。
論文 参考訳(メタデータ) (2022-03-18T17:51:20Z) - Knowledge-driven Active Learning [70.37119719069499]
アクティブな学習戦略は、ディープラーニングモデルをトレーニングするために必要なラベル付きデータの量を最小限にすることを目的としている。
ほとんどの積極的な戦略は不確実なサンプルの選択に基づいており、しばしば決定境界に近いサンプルに制限される。
本稿では、一般的なドメイン知識を考慮し、エキスパートでないユーザがより少ないサンプルでモデルを訓練できるようにする。
論文 参考訳(メタデータ) (2021-10-15T06:11:53Z) - Self-Training with Weak Supervision [32.68342091430266]
最先端のディープニューラルネットワークには、多くのタスクで入手するのに高価な大規模なラベル付きトレーニングデータが必要です。
ドメイン固有のルールの形での弱い監視は、そのような設定で有用であることが示されている。
我々は、与えられたタスクに利用可能なすべてのデータを活用する弱い監視フレームワーク(ASTRA)を開発する。
論文 参考訳(メタデータ) (2021-04-12T14:45:04Z) - Self-training Improves Pre-training for Natural Language Understanding [63.78927366363178]
我々は、半教師付き学習を通じてラベルのないデータを活用する別の方法として、自己学習について研究する。
本稿では,ラベル付きデータからタスク固有のクエリの埋め込みを計算するデータ拡張手法であるSentAugmentを紹介する。
我々のアプローチは、標準的なテキスト分類ベンチマークで最大2.6%の改善を達成し、スケーラブルで効果的な自己学習に繋がる。
論文 参考訳(メタデータ) (2020-10-05T17:52:25Z) - Data Programming by Demonstration: A Framework for Interactively
Learning Labeling Functions [2.338938629983582]
本稿では,ユーザによるインタラクティブなデモンストレーションによるラベル付けルールを生成するために,DPBD(Data Programming by Demo)という新しいフレームワークを提案する。
DPBDは、ユーザからのラベリング関数記述の負担を軽減し、より高いレベルのセマンティクスに集中できるようにすることを目的としている。
文書分類のためのラベル付けルールを,文書例におけるユーザのスパンレベルアノテーションを用いて合成する対話型システムであるReducerを用いて,我々のフレームワークを運用する。
論文 参考訳(メタデータ) (2020-09-03T04:25:08Z) - Learning from Rules Generalizing Labeled Exemplars [21.359456842579945]
多くのアプリケーションでは、ラベル付きデータは簡単には利用できない。
本稿では,ルールの効率と事例ラベルの品質を組み合わせ,人間の監督を収集するルール実証手法を提案する。
論文 参考訳(メタデータ) (2020-04-13T15:57:54Z) - A Comprehensive Benchmark Framework for Active Learning Methods in
Entity Matching [17.064993611446898]
本稿では,EMのための統合型アクティブラーニングベンチマークフレームワークを構築する。
このフレームワークの目的は、積極的学習の組み合わせがEMにどのような効果をもたらすかについて、実践者のための具体的なガイドラインを可能にすることである。
また、F1スコアの観点から学習モデルの品質を約9%向上し、モデルの品質に影響を与えることなく、サンプル選択のレイテンシを最大10倍削減する新しい最適化も含んでいる。
論文 参考訳(メタデータ) (2020-03-29T19:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。