論文の概要: Towards Model-Based Data Acquisition for Subjective Multi-Task NLP
Problems
- arxiv url: http://arxiv.org/abs/2312.08198v1
- Date: Wed, 13 Dec 2023 15:03:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 14:59:23.062967
- Title: Towards Model-Based Data Acquisition for Subjective Multi-Task NLP
Problems
- Title(参考訳): 主観的マルチタスクNLP問題に対するモデルベースデータ獲得に向けて
- Authors: Kamil Kanclerz, Julita Bielaniewicz, Marcin Gruza, Jan Kocon,
Stanis{\l}aw Wo\'zniak, Przemys{\l}aw Kazienko
- Abstract要約: マルチタスクシナリオにおける各テキストに対して個別にアノテートされたタスクの選択を可能にする新しいモデルベースアプローチを提案する。
3つのデータセット、数十のNLPタスク、数千のアノテーションによる実験により、我々の手法は、知識の喪失を無視できるアノテーションの数を最大40%削減できることを示した。
- 参考スコア(独自算出の注目度): 12.38430125789305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data annotated by humans is a source of knowledge by describing the
peculiarities of the problem and therefore fueling the decision process of the
trained model. Unfortunately, the annotation process for subjective natural
language processing (NLP) problems like offensiveness or emotion detection is
often very expensive and time-consuming. One of the inevitable risks is to
spend some of the funds and annotator effort on annotations that do not provide
any additional knowledge about the specific task. To minimize these costs, we
propose a new model-based approach that allows the selection of tasks annotated
individually for each text in a multi-task scenario. The experiments carried
out on three datasets, dozens of NLP tasks, and thousands of annotations show
that our method allows up to 40% reduction in the number of annotations with
negligible loss of knowledge. The results also emphasize the need to collect a
diverse amount of data required to efficiently train a model, depending on the
subjectivity of the annotation task. We also focused on measuring the relation
between subjective tasks by evaluating the model in single-task and multi-task
scenarios. Moreover, for some datasets, training only on the labels predicted
by our model improved the efficiency of task selection as a self-supervised
learning regularization technique.
- Abstract(参考訳): 人間によって注釈付けされたデータは、問題の特異性を記述することによって知識の源であり、したがって訓練されたモデルの決定プロセスを促進する。
残念ながら、攻撃性や感情検出といった主観的自然言語処理(NLP)問題に対するアノテーションプロセスは非常に高価で時間を要することが多い。
避けられないリスクの1つは、特定のタスクに関する追加の知識を提供しないアノテーションに資金と注釈の努力を費やすことである。
これらのコストを最小限に抑えるために,マルチタスクシナリオにおける各テキストに対して個別にアノテートされたタスクの選択を可能にする,新しいモデルベースアプローチを提案する。
実験では3つのデータセット,数十のNLPタスク,数千のアノテーションを用いて,知識の喪失を無視できるアノテーションの数を最大40%削減できることを示す。
また,アノテーションタスクの主観性に応じて,モデルの効率的なトレーニングに必要な多種多様なデータ収集の必要性も強調した。
また,単タスクシナリオとマルチタスクシナリオにおけるモデル評価による主観的タスク間関係の測定にも焦点を当てた。
また,いくつかのデータセットでは,モデルが予測するラベルのみを学習することで,自己教師付き学習正規化手法としてのタスク選択の効率が向上した。
関連論文リスト
- Combating Missing Modalities in Egocentric Videos at Test Time [92.38662956154256]
現実のアプリケーションは、プライバシの懸念、効率性の必要性、ハードウェアの問題により、不完全なモダリティを伴う問題に直面することが多い。
再トレーニングを必要とせずに,テスト時にこの問題に対処する新しい手法を提案する。
MiDlは、欠落したモダリティをテスト時にのみ扱う、自己管理型のオンラインソリューションとしては初めてのものだ。
論文 参考訳(メタデータ) (2024-04-23T16:01:33Z) - Data-CUBE: Data Curriculum for Instruction-based Sentence Representation
Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。
タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。
インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文 参考訳(メタデータ) (2024-01-07T18:12:20Z) - Distribution Matching for Multi-Task Learning of Classification Tasks: a
Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。
MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。
本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T14:18:11Z) - Exploring intra-task relations to improve meta-learning algorithms [1.223779595809275]
我々は,タスクの効果的なミニバッチによるトレーニング安定性向上のために,タスク関係の外部知識を活用することを目的としている。
ミニバッチでタスクの多様なセットを選択すると、完全な勾配がより良く見積もられるため、トレーニングにおけるノイズの低減につながる、という仮説を立てる。
論文 参考訳(メタデータ) (2023-12-27T15:33:52Z) - Preventing Catastrophic Forgetting in Continual Learning of New Natural
Language Tasks [17.879087904904935]
マルチタスク学習(MTL)は、自然言語処理において、1つのモデルで複数の関連するタスクを学習するための標準技術として広く受け入れられている。
通常、システムは時間とともに進化するので、既存のMTLモデルに新しいタスクを追加するには、通常、すべてのタスクをスクラッチから再トレーニングする必要があります。
本稿では、n+1タスクを解くための新しいタスクに、既に訓練済みのnタスクに関するモデルの知識を蒸留することにより、MTLモデルの能力を漸進的に拡張し、新しいタスクを時間とともに解決する問題にアプローチする。
論文 参考訳(メタデータ) (2023-02-22T00:18:25Z) - Multi-task Bias-Variance Trade-off Through Functional Constraints [102.64082402388192]
マルチタスク学習は、多様なタスクによく機能する関数の集合を取得することを目的としている。
本稿では,2つの極端な学習シナリオ,すなわちすべてのタスクに対する単一関数と,他のタスクを無視するタスク固有関数から直感を抽出する。
本稿では,集中関数に対するドメイン固有解を強制する制約付き学習定式化を導入する。
論文 参考訳(メタデータ) (2022-10-27T16:06:47Z) - Multi-task Active Learning for Pre-trained Transformer-based Models [22.228551277598804]
複数のタスクをひとつのモデルで共同で学習するマルチタスク学習により、NLPモデルは複数のアノテーションから情報を共有することができる。
このテクニックでは、コストがかかり、面倒な複数のアノテーションスキームで同じテキストに注釈を付ける必要がある。
アクティブラーニング(AL)は、ラベルなし例を反復的に選択することで、アノテーションプロセスの最適化を実証している。
論文 参考訳(メタデータ) (2022-08-10T14:54:13Z) - KnowDA: All-in-One Knowledge Mixture Model for Data Augmentation in
Few-Shot NLP [68.43279384561352]
既存のデータ拡張アルゴリズムはタスク非依存のルールや微調整の汎用事前訓練言語モデルを利用する。
これらの手法は、簡単なタスク固有の知識を持ち、単純なタスクにおいて弱いベースラインのための低品質な合成データを得るに限られる。
我々は,様々なNLPタスクを予め学習したエンコーダ/デコーダLMの知識混合データ拡張モデル(KnowDA)を提案する。
論文 参考訳(メタデータ) (2022-06-21T11:34:02Z) - Weighted Training for Cross-Task Learning [71.94908559469475]
クロスタスク学習のための重み付きトレーニングアルゴリズムであるTarget-Aware Weighted Training (TAWT)を紹介する。
TAWTは実装が容易で、計算効率が高く、ハイパーパラメータチューニングがほとんど必要とせず、漸近的でない学習理論の保証を享受できることを示す。
副産物として、提案された表現に基づくタスク距離は、クロスタスク学習のいくつかの重要な側面について理論的に原則化された方法で推論することができる。
論文 参考訳(メタデータ) (2021-05-28T20:27:02Z) - Label-Efficient Multi-Task Segmentation using Contrastive Learning [0.966840768820136]
比較学習に基づくサブタスクを用いたマルチタスクセグメンテーションモデルを提案し、その性能を他のマルチタスクモデルと比較する。
提案手法は,アノテートデータの量に制限がある場合に,最先端の完全教師付きモデルを含む他のマルチタスク手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-09-23T14:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。