論文の概要: SeqMix: Augmenting Active Sequence Labeling via Sequence Mixup
- arxiv url: http://arxiv.org/abs/2010.02322v1
- Date: Mon, 5 Oct 2020 20:27:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 20:20:56.738532
- Title: SeqMix: Augmenting Active Sequence Labeling via Sequence Mixup
- Title(参考訳): seqmix: sequence mixupによるアクティブシーケンスラベリングの強化
- Authors: Rongzhi Zhang, Yue Yu and Chao Zhang
- Abstract要約: 本稿では,アクティブなシーケンスラベリングのラベル効率を向上させるため,単純だが効果的なデータ拡張手法を提案する。
提案手法であるSeqMixは,反復毎にラベル付き配列を付加することで,クエリされたサンプルを増大させる。
SeqMixでは、クエリされたサンプルのシーケンスとトークンレベルのラベルをミックスアップすることで、この問題に対処する。
- 参考スコア(独自算出の注目度): 11.606681893887604
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Active learning is an important technique for low-resource sequence labeling
tasks. However, current active sequence labeling methods use the queried
samples alone in each iteration, which is an inefficient way of leveraging
human annotations. We propose a simple but effective data augmentation method
to improve the label efficiency of active sequence labeling. Our method,
SeqMix, simply augments the queried samples by generating extra labeled
sequences in each iteration. The key difficulty is to generate plausible
sequences along with token-level labels. In SeqMix, we address this challenge
by performing mixup for both sequences and token-level labels of the queried
samples. Furthermore, we design a discriminator during sequence mixup, which
judges whether the generated sequences are plausible or not. Our experiments on
Named Entity Recognition and Event Detection tasks show that SeqMix can improve
the standard active sequence labeling method by $2.27\%$--$3.75\%$ in terms of
$F_1$ scores. The code and data for SeqMix can be found at
https://github.com/rz-zhang/SeqMix
- Abstract(参考訳): アクティブラーニングは、低リソースシーケンスラベリングタスクにとって重要なテクニックである。
しかし、現在のアクティブシーケンスラベリングメソッドでは、各イテレーションでクエリされたサンプルのみを使用しており、これは人間のアノテーションを活用するための非効率な方法である。
本稿では,アクティブシーケンスラベリングのラベル効率を向上させるため,単純だが効果的なデータ拡張手法を提案する。
提案手法であるseqmixは,各イテレーションで追加ラベル付きシーケンスを生成することで,クエリされたサンプルの強化を行う。
鍵となる困難は、トークンレベルのラベルとともに、もっともらしいシーケンスを生成することである。
SeqMixでは、クエリされたサンプルのシーケンスとトークンレベルのラベルをミックスアップすることで、この問題に対処する。
さらに,シーケンスミックスアップ中の判別器の設計を行い,生成したシーケンスが妥当かどうかを判定する。
Named Entity RecognitionとEvent Detectionタスクの実験により、SeqMixは標準的なアクティブシーケンスラベリング方法を$F_1$スコアで2.27\%$--3.75\%$で改善できることが示された。
SeqMixのコードとデータはhttps://github.com/rz-zhang/SeqMixにある。
関連論文リスト
- Extracting Clean and Balanced Subset for Noisy Long-tailed Classification [66.47809135771698]
そこで我々は,分布マッチングの観点から,クラスプロトタイプを用いた新しい擬似ラベリング手法を開発した。
手動で特定の確率尺度を設定することで、ノイズと長い尾を持つデータの副作用を同時に減らすことができる。
本手法は, クリーンなラベル付きクラスバランスサブセットを抽出し, ラベルノイズ付きロングテール分類において, 効果的な性能向上を実現する。
論文 参考訳(メタデータ) (2024-04-10T07:34:37Z) - Multi-Label Noise Transition Matrix Estimation with Label Correlations:
Theory and Algorithm [73.94839250910977]
ノイズの多いマルチラベル学習は、大規模な正確なラベルの収集によって生じる課題により、注目を集めている。
遷移行列の導入は、マルチラベルノイズをモデル化し、統計的に一貫したアルゴリズムの開発に役立つ。
そこで本稿では, アンカーポイントを必要とせずに, ラベル相関を利用した新しい推定器を提案する。
論文 参考訳(メタデータ) (2023-09-22T08:35:38Z) - Drawing the Same Bounding Box Twice? Coping Noisy Annotations in Object
Detection with Repeated Labels [6.872072177648135]
そこで本研究では,基礎的真理推定手法に適合する新しい局所化アルゴリズムを提案する。
また,本アルゴリズムは,TexBiGデータセット上でのトレーニングにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-18T13:08:44Z) - OTSeq2Set: An Optimal Transport Enhanced Sequence-to-Set Model for
Extreme Multi-label Text Classification [9.990725102725916]
XMTC (Extreme Multi-label text classification) は、大規模ラベルコレクションから最も関連性の高いサブセットラベルを見つけるタスクである。
OTSeq2Set という名前の XMTC タスクに対する自己回帰シーケンス・ツー・セットモデルを提案する。
本モデルは,学生強制スキームにおける予測を生成し,両部マッチングに基づく損失関数を用いて学習する。
論文 参考訳(メタデータ) (2022-10-26T07:25:18Z) - Modeling sequential annotations for sequence labeling with crowds [8.239028141030621]
クラウドシーケンシャルアノテーションは、シーケンスラベリングのための大規模なデータセットを構築する上で、効率的でコスト効率のよい方法である。
群集を用いたシーケンスラベリングのための逐次アノテーションのモデル化(SA-SLC)を提案する。
提案手法は,クラウド・シーケンシャル・アノテーションから有効な基底トラス・ラベル・シーケンスを導出するために有効なラベル・シーケンス・推論(VLSE)手法を提案する。
論文 参考訳(メタデータ) (2022-09-20T02:51:23Z) - Automatic Label Sequence Generation for Prompting Sequence-to-sequence
Models [105.4590533269863]
完全自動プロンプト方式であるAutoSeqを提案する。
我々はシーケンス・ツー・シーケンス・モデルに自然言語プロンプトを採用する。
本手法は,数ショット学習におけるシーケンス・ツー・シーケンスモデルの可能性を明らかにする。
論文 参考訳(メタデータ) (2022-09-20T01:35:04Z) - Multi-label Classification with High-rank and High-order Label
Correlations [62.39748565407201]
従来の手法では, ラベル行列を低ランク行列係数化した潜在ラベル空間に変換することにより, 高階ラベル相関を捕えることができた。
本稿では,高次ラベル相関を明示的に記述する簡易かつ効果的な手法を提案し,同時にラベル行列の高次値を維持する。
12個のベンチマークデータセットの比較研究により,マルチラベル分類における提案アルゴリズムの有効性が検証された。
論文 参考訳(メタデータ) (2022-07-09T05:15:31Z) - Enhancing Label Correlation Feedback in Multi-Label Text Classification
via Multi-Task Learning [6.1538971100140145]
ラベル相関フィードバックを高めるために,マルチタスク学習を用いた新しい手法を提案する。
本稿では,ラベル相関学習を強化するための2つの補助ラベル共起予測タスクを提案する。
論文 参考訳(メタデータ) (2021-06-06T12:26:14Z) - Accelerating BERT Inference for Sequence Labeling via Early-Exit [65.7292767360083]
我々は最近成功した早期退避機構を拡張し、シークエンスラベリングタスクに対するPTMの推論を高速化する。
また、異なる層で部分トークンを早期に退避させるトークンレベルの早期退避機構も提案する。
当社のアプローチでは,パフォーマンスの低下を最小限に抑えながら,最大66%~75%の推論コストを削減できる。
論文 参考訳(メタデータ) (2021-05-28T14:39:26Z) - Semantic Label Smoothing for Sequence to Sequence Problems [54.758974840974425]
そこで本研究では,対象シーケンスとn-gramの重なり合いが十分である,エンハンウェル上のスムーズな関連配列を生成する手法を提案する。
提案手法は, 異なるデータセット上での最先端技術よりも一貫した, 顕著な改善を示す。
論文 参考訳(メタデータ) (2020-10-15T00:31:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。