論文の概要: Teach me how to Label: Labeling Functions from Natural Language with
Text-to-text Transformers
- arxiv url: http://arxiv.org/abs/2101.07138v1
- Date: Mon, 18 Jan 2021 16:04:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-27 06:06:35.154964
- Title: Teach me how to Label: Labeling Functions from Natural Language with
Text-to-text Transformers
- Title(参考訳): テキストからテキストへの変換による自然言語からの関数のラベル付け
- Authors: Yannis Papanikolaou
- Abstract要約: 本稿では,自然言語記述をPythonラベリング関数に変換する作業に焦点をあてる。
我々は、事前訓練されたテキスト・トゥ・テキスト・トランスフォーマを用いた意味解析の新しいアプローチに従う。
我々のアプローチは、自然言語でラベルを付ける方法を教えるモデルへの一歩と見なすことができる。
- 参考スコア(独自算出の注目度): 0.5330240017302619
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Annotated data has become the most important bottleneck in training accurate
machine learning models, especially for areas that require domain expertise. A
recent approach to deal with the above issue proposes using natural language
explanations instead of labeling individual data points, thereby increasing
human annotators' efficiency as well as decreasing costs substantially. This
paper focuses on the task of turning these natural language descriptions into
Python labeling functions by following a novel approach to semantic parsing
with pre-trained text-to-text Transformers. In a series of experiments our
approach achieves a new state of the art on the semantic parsing benchmark
CoNaLa, surpassing the previous best approach by 3.7 BLEU points. Furthermore,
on a manually constructed dataset of natural language descriptions-labeling
functions pairs we achieve a BLEU of 0.39. Our approach can be regarded as a
stepping stone towards models that are taught how to label in natural language,
instead of being provided specific labeled samples. Our code, constructed
dataset and models are available at
https://github.com/ypapanik/t5 -for-code-generation.
- Abstract(参考訳): 注釈付きデータは、特にドメインの専門知識を必要とする分野において、正確な機械学習モデルをトレーニングする上で最も重要なボトルネックとなっている。
上記の問題に対処する最近のアプローチでは、個々のデータポイントをラベル付けするのではなく、自然言語による説明を用いることで、アノテータの効率を向上し、コストを大幅に削減する。
本稿では,これらの自然言語記述をPythonラベリング関数に変換する作業について,事前学習したテキスト・テキスト・トランスフォーマを用いたセマンティック・パースに追従する。
一連の実験で、我々のアプローチはセマンティック構文解析ベンチマークのconalaの新たな最先端を達成し、以前のベストアプローチを3.7 bleuポイントで上回った。
さらに,自然言語記述ラベル関数ペアを手作業で構築したデータセットでは,0。
我々のアプローチは、特定のラベル付きサンプルを提供するのではなく、自然言語でラベル付けする方法を教えるモデルへのステップストーンと見なすことができる。
私たちのコード、構築されたデータセット、モデルは、https://github.com/ypapanik/t5 -for-code-generationで利用可能です。
関連論文リスト
- Training Naturalized Semantic Parsers with Very Little Data [10.709587018625275]
State-of-the-art(SOTA)セマンティクスは、大量のテキストに基づいて事前訓練された大規模な言語モデルに基づくセク2セックアーキテクチャである。
最近の研究は意味解析の改革を探求しており、出力シーケンスはそれ自体が自然言語文である。
本手法は,Overnightデータセット上で新たなSOTA数ショット性能を実現する。
論文 参考訳(メタデータ) (2022-04-29T17:14:54Z) - ZeroBERTo -- Leveraging Zero-Shot Text Classification by Topic Modeling [57.80052276304937]
本稿では、教師なしクラスタリングのステップを利用して、分類タスクの前に圧縮されたデータ表現を得る新しいモデルZeroBERToを提案する。
また,ZeroBERToは,FolhaUOLデータセットのF1スコアにおいて,XLM-Rを約12%上回り,長い入力と実行時間の短縮に優れた性能を示した。
論文 参考訳(メタデータ) (2022-01-04T20:08:17Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - Towards Zero-Label Language Learning [20.28186484098947]
本稿では自然言語処理(NLP)におけるゼロラベル学習について検討する。
トレーニング中、どこにでも人間の注釈付きデータを使用しず、モデルが純粋に合成データに基づいて訓練される。
GPT-3における数発の推論の成功に触発されて、教師なしデータ生成というトレーニングデータ生成手順を提案する。
論文 参考訳(メタデータ) (2021-09-19T19:00:07Z) - Sentence Bottleneck Autoencoders from Transformer Language Models [53.350633961266375]
我々は、事前訓練されたフリーズトランスフォーマー言語モデルから文レベルのオートエンコーダを構築する。
我々は、文ボトルネックと1層修飾トランスフォーマーデコーダのみを訓練しながら、マスク付き言語モデリングの目的を生成的・認知的言語として適応する。
本研究では,テキスト類似性タスク,スタイル転送,単一文分類タスクにおける事前学習されたトランスフォーマーからの表現をGLUEベンチマークで抽出する手法よりも,大規模な事前学習モデルよりも少ないパラメータを用いて,より高品質な文表現を実現することを示す。
論文 参考訳(メタデータ) (2021-08-31T19:39:55Z) - Towards Good Practices for Efficiently Annotating Large-Scale Image
Classification Datasets [90.61266099147053]
多数の画像の分類ラベルを収集するための効率的なアノテーション戦略を検討する。
人間のラベリング作業を最小化するための修正とベストプラクティスを提案します。
ImageNet100の125kイメージサブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度でアノテートできることが示されている。
論文 参考訳(メタデータ) (2021-04-26T16:29:32Z) - Syntax-BERT: Improving Pre-trained Transformers with Syntax Trees [15.245017922785403]
本稿では,構文木を事前学習したトランスフォーマーに効果的に組み込む新しいフレームワークSyntax-BERTを提案する。
自然言語理解の様々なデータセットの実験は、構文木の有効性を検証し、複数の事前学習モデルに対して一貫した改善を実現する。
論文 参考訳(メタデータ) (2021-03-07T13:11:31Z) - Controlling Hallucinations at Word Level in Data-to-Text Generation [10.59137381324694]
最先端のニューラルモデルには、アウトプットに誤解を招くステートメントが含まれている。
本稿では,単語レベルのラベルを利用して各トレーニングインスタンスの関連部分を学習できるマルチブランチデコーダを提案する。
我々のモデルは、生成したテキストの流布とコヒーレンスを維持しながら、幻覚を減らし制御することができる。
論文 参考訳(メタデータ) (2021-02-04T18:58:28Z) - GTAE: Graph-Transformer based Auto-Encoders for Linguistic-Constrained
Text Style Transfer [119.70961704127157]
近年,非並列テキストスタイルの転送が研究の関心を集めている。
現在のアプローチでは、元の文の内容やロジックを保存できない。
文を言語グラフとしてモデル化し,グラフレベルで特徴抽出とスタイル転送を行う,グラフトランスフォーマーベースのAuto-GTAEを提案する。
論文 参考訳(メタデータ) (2021-02-01T11:08:45Z) - Syntax-Enhanced Pre-trained Model [49.1659635460369]
BERTやRoBERTaなどの学習済みモデルを強化するために、テキストの構文構造を活用するという問題を研究する。
既存の手法では、事前学習段階または微調整段階のいずれかでテキストの構文を利用しており、両者の区別に苦しむ。
事前学習と微調整の両方の段階でテキストのシンタックスを利用するモデルを提示する。
論文 参考訳(メタデータ) (2020-12-28T06:48:04Z) - Fine-tuning BERT for Low-Resource Natural Language Understanding via
Active Learning [30.5853328612593]
本研究では,事前学習した Transformer ベースの言語モデル BERT の微調整手法について検討する。
実験結果から,モデルの知識獲得度を最大化することで,モデル性能の優位性を示す。
我々は、微調整中の言語モデルの凍結層の利点を分析し、トレーニング可能なパラメータの数を減らす。
論文 参考訳(メタデータ) (2020-12-04T08:34:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。