論文の概要: Prefer to Classify: Improving Text Classifiers via Auxiliary Preference
Learning
- arxiv url: http://arxiv.org/abs/2306.04925v1
- Date: Thu, 8 Jun 2023 04:04:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 16:24:22.022089
- Title: Prefer to Classify: Improving Text Classifiers via Auxiliary Preference
Learning
- Title(参考訳): Prefer to Classify: Auxiliary Preference Learningによるテキスト分類の改善
- Authors: Jaehyung Kim, Jinwoo Shin, Dongyeop Kang
- Abstract要約: 本稿では、このような補助データアノテーションの新しい代替手段として、入力テキストのペア間のタスク固有の嗜好について検討する。
本稿では、与えられた分類課題と補助的選好の両方を学ぶことの協調効果を享受できる、P2Cと呼ばれる新しいマルチタスク学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 76.43827771613127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The development of largely human-annotated benchmarks has driven the success
of deep neural networks in various NLP tasks. To enhance the effectiveness of
existing benchmarks, collecting new additional input-output pairs is often too
costly and challenging, particularly considering their marginal impact on
improving the current model accuracy. Instead, additional or complementary
annotations on the existing input texts in the benchmarks can be preferable as
an efficient way to pay the additional human cost. In this paper, we
investigate task-specific preferences between pairs of input texts as a new
alternative way for such auxiliary data annotation. From 'pair-wise'
comparisons with respect to the task, the auxiliary preference learning enables
the model to learn an additional informative training signal that cannot be
captured with 'instance-wise' task labels. To this end, we propose a novel
multi-task learning framework, called prefer-to-classify (P2C), which can enjoy
the cooperative effect of learning both the given classification task and the
auxiliary preferences. Here, we provide three different ways to collect
preference signals in practice: (a) implicitly extracting from annotation
records (for free, but often unavailable), (b) collecting explicitly from crowd
workers (high paid), or (c) pre-trained large language models such as GPT-3
(low paid). Given existing classification NLP benchmarks, we demonstrate that
the proposed auxiliary preference learning via P2C on them is effective in
improving text classifiers. Our codes are publicly available.
- Abstract(参考訳): 主に人間による注釈付きベンチマークの開発は、様々なNLPタスクにおけるディープニューラルネットワークの成功を導いた。
既存のベンチマークの有効性を高めるために、新しい入出力ペアの収集はコストがかかりすぎることがあり、特に現在のモデルの精度を改善するための限界の影響を考えると困難である。
代わりに、ベンチマークの既存の入力テキストに対する追加または補完的なアノテーションは、追加の人的コストを支払う効率的な方法として望ましい。
本稿では,このような補助データアノテーションの代替手段として,入力テキストのペア間のタスク固有の嗜好について検討する。
タスクに対する「ペアワイズ」の比較から、補助的な選好学習により、モデルが「インスタンスワイズ」タスクラベルで取得できない付加的な情報的訓練信号を学ぶことができる。
そこで本研究では,与えられた分類課題と補助的選好の両方を学習する協調効果を享受できる,p2cと呼ばれる新しいマルチタスク学習フレームワークを提案する。
ここでは、実際に好みの信号を収集する方法を3つ挙げる。
(a)暗黙的に注釈記録から抽出する(無料であるがしばしば利用できない)
(b)群衆労働者から明示的に集める(高給)、又は
c) gpt-3 (low paid) のような事前学習された大型言語モデル。
既存の分類NLPベンチマークから、P2Cによる予備選好学習がテキスト分類法の改善に有効であることを示す。
私たちのコードは公開されています。
関連論文リスト
- Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。
我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - Task-Specific Embeddings for Ante-Hoc Explainable Text Classification [6.671252951387647]
テキストのタスク固有の埋め込みを学習する学習目標を提案する。
提案する目的は,同一のクラスラベルを共有するすべてのテキストが近接しているように埋め込みを学習することである。
本研究は, 総合的な分類精度において, アンテホックな説明可能性と漸進的な学習の利点が無コストで得られることを示す広範囲な実験である。
論文 参考訳(メタデータ) (2022-11-30T19:56:25Z) - Distant finetuning with discourse relations for stance classification [55.131676584455306]
そこで本研究では,定位分類のモデルとして,原文から銀ラベルでデータを抽出し,微調整する手法を提案する。
また,様々な段階において微調整に用いるデータのノイズレベルが減少する3段階のトレーニングフレームワークを提案する。
NLPCC 2021共有タスクArgumentative Text Understanding for AI Debaterでは,26の競合チームの中で1位にランクインした。
論文 参考訳(メタデータ) (2022-04-27T04:24:35Z) - A new data augmentation method for intent classification enhancement and
its application on spoken conversation datasets [23.495743195811375]
本稿では,Nearest Neighbors Scores Improvement (NNSI)アルゴリズムを提案する。
NNSIは、高度に曖昧なサンプルを自動的に選択し、それらを高精度にラベルすることで、手動ラベリングの必要性を減らす。
2つの大規模実生活音声対話システムにおけるNNSIの使用を実演した。
論文 参考訳(メタデータ) (2022-02-21T11:36:19Z) - Assisted Text Annotation Using Active Learning to Achieve High Quality
with Little Effort [9.379650501033465]
研究者は、手動の注釈だけで、大規模で高品質な注釈付きデータセットを作成できるツールを提案する。
我々は、アクティブラーニング(AL)アプローチと事前訓練された言語モデルを組み合わせて、アノテーションカテゴリを半自動で識別する。
予備的な結果から,ALを用いることで,複雑なフレームや微妙なフレームを正しく分類するアノテーションの数が大幅に削減されることがわかった。
論文 参考訳(メタデータ) (2021-12-15T13:14:58Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Adaptive Prototypical Networks with Label Words and Joint Representation
Learning for Few-Shot Relation Classification [17.237331828747006]
本研究は,少ショット関係分類(FSRC)に焦点を当てる。
クラスプロトタイプの表現にラベル単語を追加するための適応的混合機構を提案する。
FewRelでは、異なる数ショット(FS)設定で実験が行われた。
論文 参考訳(メタデータ) (2021-01-10T11:25:42Z) - Active Learning for Coreference Resolution using Discrete Annotation [76.36423696634584]
我々は、コア参照解決におけるアクティブラーニングのためのペアワイズアノテーションを改善した。
提案された参照ペアがコアフェレントでないと判断された場合、アノテータに参照アンテセントを識別するよう依頼する。
既存のベンチマークコアベンチマークデータセットを用いた実験では、この追加質問からの信号が人間のアノテーション時間当たりの大幅なパフォーマンス向上につながることが示された。
論文 参考訳(メタデータ) (2020-04-28T17:17:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。