論文の概要: Teach me how to Label: Labeling Functions from Natural Language with
Text-to-text Transformers
- arxiv url: http://arxiv.org/abs/2101.07138v1
- Date: Mon, 18 Jan 2021 16:04:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-27 06:06:35.154964
- Title: Teach me how to Label: Labeling Functions from Natural Language with
Text-to-text Transformers
- Title(参考訳): テキストからテキストへの変換による自然言語からの関数のラベル付け
- Authors: Yannis Papanikolaou
- Abstract要約: 本稿では,自然言語記述をPythonラベリング関数に変換する作業に焦点をあてる。
我々は、事前訓練されたテキスト・トゥ・テキスト・トランスフォーマを用いた意味解析の新しいアプローチに従う。
我々のアプローチは、自然言語でラベルを付ける方法を教えるモデルへの一歩と見なすことができる。
- 参考スコア(独自算出の注目度): 0.5330240017302619
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Annotated data has become the most important bottleneck in training accurate
machine learning models, especially for areas that require domain expertise. A
recent approach to deal with the above issue proposes using natural language
explanations instead of labeling individual data points, thereby increasing
human annotators' efficiency as well as decreasing costs substantially. This
paper focuses on the task of turning these natural language descriptions into
Python labeling functions by following a novel approach to semantic parsing
with pre-trained text-to-text Transformers. In a series of experiments our
approach achieves a new state of the art on the semantic parsing benchmark
CoNaLa, surpassing the previous best approach by 3.7 BLEU points. Furthermore,
on a manually constructed dataset of natural language descriptions-labeling
functions pairs we achieve a BLEU of 0.39. Our approach can be regarded as a
stepping stone towards models that are taught how to label in natural language,
instead of being provided specific labeled samples. Our code, constructed
dataset and models are available at
https://github.com/ypapanik/t5-for-code-generation.
- Abstract(参考訳): 注釈付きデータは、特にドメインの専門知識を必要とする分野において、正確な機械学習モデルをトレーニングする上で最も重要なボトルネックとなっている。
上記の問題に対処する最近のアプローチでは、個々のデータポイントをラベル付けするのではなく、自然言語による説明を用いることで、アノテータの効率を向上し、コストを大幅に削減する。
本稿では,これらの自然言語記述をPythonラベリング関数に変換する作業について,事前学習したテキスト・テキスト・トランスフォーマを用いたセマンティック・パースに追従する。
一連の実験で、我々のアプローチはセマンティック構文解析ベンチマークのconalaの新たな最先端を達成し、以前のベストアプローチを3.7 bleuポイントで上回った。
さらに,自然言語記述ラベル関数ペアを手作業で構築したデータセットでは,0。
我々のアプローチは、特定のラベル付きサンプルを提供するのではなく、自然言語でラベル付けする方法を教えるモデルへのステップストーンと見なすことができる。
私たちのコード、構築されたデータセット、モデルは、https://github.com/ypapanik/t5-for-code-generationで利用可能です。
関連論文リスト
- Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Actuarial Applications of Natural Language Processing Using
Transformers: Case Studies for Using Text Features in an Actuarial Context [0.0]
このチュートリアルは、テキストデータをアクチュアリ分類と回帰タスクに組み込むことを実証する。
主な焦点はトランスフォーマーモデルを用いた手法である。
このケーススタディは、多言語設定と長い入力シーケンスに関連する課題に取り組む。
論文 参考訳(メタデータ) (2022-06-04T15:39:30Z) - Training Naturalized Semantic Parsers with Very Little Data [10.709587018625275]
State-of-the-art(SOTA)セマンティクスは、大量のテキストに基づいて事前訓練された大規模な言語モデルに基づくセク2セックアーキテクチャである。
最近の研究は意味解析の改革を探求しており、出力シーケンスはそれ自体が自然言語文である。
本手法は,Overnightデータセット上で新たなSOTA数ショット性能を実現する。
論文 参考訳(メタデータ) (2022-04-29T17:14:54Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - Controlling Hallucinations at Word Level in Data-to-Text Generation [10.59137381324694]
最先端のニューラルモデルには、アウトプットに誤解を招くステートメントが含まれている。
本稿では,単語レベルのラベルを利用して各トレーニングインスタンスの関連部分を学習できるマルチブランチデコーダを提案する。
我々のモデルは、生成したテキストの流布とコヒーレンスを維持しながら、幻覚を減らし制御することができる。
論文 参考訳(メタデータ) (2021-02-04T18:58:28Z) - Adaptive Self-training for Few-shot Neural Sequence Labeling [55.43109437200101]
ニューラルシークエンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。
自己学習は、大量のラベルのないデータから学ぶための効果的なメカニズムとして機能する。
メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズのある擬似ラベルからのエラー伝播を軽減するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T22:29:05Z) - ALICE: Active Learning with Contrastive Natural Language Explanations [69.03658685761538]
本研究では,学習におけるデータ効率を向上させるために,AlICEを用いたアクティブラーニングを提案する。
ALICEは、まずアクティブラーニングを使用して、最も情報に富んだラベルクラスを選択し、対照的な自然言語の説明を引き出す。
意味的に抽出された知識を用いて、これらの説明から知識を抽出する。
論文 参考訳(メタデータ) (2020-09-22T01:02:07Z) - DeCLUTR: Deep Contrastive Learning for Unsupervised Textual
Representations [4.36561468436181]
教師なしテキスト表現のためのDeCLUTR: Deep Contrastive Learningを提案する。
本手法は,ユニバーサル文エンコーダにおける教師なしと教師なしの事前学習のパフォーマンスギャップを埋めるものである。
私たちのコードと事前訓練されたモデルは公開されており、新しいドメインに簡単に適応したり、目に見えないテキストを埋め込むのに使えます。
論文 参考訳(メタデータ) (2020-06-05T20:00:28Z) - Politeness Transfer: A Tag and Generate Approach [167.9924201435888]
本稿では, 丁寧性伝達の新たな課題について紹介する。
意味を保ちながら、非政治的な文を丁寧な文に変換することを含む。
我々はタグを設計し、スタイル属性を識別するパイプラインを生成し、その後、ターゲットスタイルで文を生成する。
論文 参考訳(メタデータ) (2020-04-29T15:08:53Z) - Exploring the Limits of Transfer Learning with a Unified Text-to-Text
Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。
本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文 参考訳(メタデータ) (2019-10-23T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。