論文の概要: More Embeddings, Better Sequence Labelers?
- arxiv url: http://arxiv.org/abs/2009.08330v3
- Date: Wed, 2 Jun 2021 03:09:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 08:26:35.182935
- Title: More Embeddings, Better Sequence Labelers?
- Title(参考訳): 埋め込みやシーケンスラベルの改善は?
- Authors: Xinyu Wang, Yong Jiang, Nguyen Bach, Tao Wang, Zhongqiang Huang, Fei
Huang, Kewei Tu
- Abstract要約: 最近の研究は、文脈埋め込みのファミリを提案し、非文脈埋め込みよりもシーケンスラベルの精度を大幅に向上させる。
我々は18のデータセットと8の言語にまたがる3つのタスクについて広範囲にわたる実験を行い、様々な埋め込み結合を用いたシーケンスラベリングの精度について検討した。
- 参考スコア(独自算出の注目度): 75.44925576268052
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent work proposes a family of contextual embeddings that significantly
improves the accuracy of sequence labelers over non-contextual embeddings.
However, there is no definite conclusion on whether we can build better
sequence labelers by combining different kinds of embeddings in various
settings. In this paper, we conduct extensive experiments on 3 tasks over 18
datasets and 8 languages to study the accuracy of sequence labeling with
various embedding concatenations and make three observations: (1) concatenating
more embedding variants leads to better accuracy in rich-resource and
cross-domain settings and some conditions of low-resource settings; (2)
concatenating additional contextual sub-word embeddings with contextual
character embeddings hurts the accuracy in extremely low-resource settings; (3)
based on the conclusion of (1), concatenating additional similar contextual
embeddings cannot lead to further improvements. We hope these conclusions can
help people build stronger sequence labelers in various settings.
- Abstract(参考訳): 最近の研究は文脈埋め込みのファミリを提案し、非文脈埋め込みよりもシーケンスラベルの精度を大幅に向上させる。
しかし、異なる種類の埋め込みを様々な設定で組み合わせることで、より良いシーケンスラベルを作成できるかどうかについては明確な結論はない。
In this paper, we conduct extensive experiments on 3 tasks over 18 datasets and 8 languages to study the accuracy of sequence labeling with various embedding concatenations and make three observations: (1) concatenating more embedding variants leads to better accuracy in rich-resource and cross-domain settings and some conditions of low-resource settings; (2) concatenating additional contextual sub-word embeddings with contextual character embeddings hurts the accuracy in extremely low-resource settings; (3) based on the conclusion of (1), concatenating additional similar contextual embeddings cannot lead to further improvements.
これらの結論が、より強力なシーケンスラベルをさまざまな設定で構築する上で役立つことを願っています。
関連論文リスト
- Sub-Sentence Encoder: Contrastive Learning of Propositional Semantic
Representations [102.05351905494277]
サブ文エンコーダ(Sub-sentence encoder)は、テキストの微細な意味表現のためのコンテクスト埋め込みモデルである。
文エンコーダと比較して,サブ文エンコーダは推論コストと空間複雑さのレベルが同じであることを示す。
論文 参考訳(メタデータ) (2023-11-07T20:38:30Z) - Imbalanced Multi-label Classification for Business-related Text with
Moderately Large Label Spaces [0.30458514384586394]
我々は、特定の不均衡なビジネスデータセットを用いて、マルチラベルテキスト分類のための4つの異なる方法を評価した。
細調整されたBERTは、他の3つの手法よりもかなり優れており、精度の高い値が得られる。
これらの結果は,マルチラベルテキスト分類作業における細調整BERTの有効性を浮き彫りにし,企業にとって有用なツールである可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-12T11:51:50Z) - Imprecise Label Learning: A Unified Framework for Learning with Various Imprecise Label Configurations [91.67511167969934]
imprecise label learning (ILL)は、様々な不正確なラベル構成で学習を統合するためのフレームワークである。
我々は、ILLが部分ラベル学習、半教師付き学習、雑音ラベル学習にシームレスに適応できることを実証した。
論文 参考訳(メタデータ) (2023-05-22T04:50:28Z) - Label Dependencies-aware Set Prediction Networks for Multi-label Text Classification [0.0]
グラフ畳み込みネットワークを活用し,ラベル間の統計的関係に基づいて隣接行列を構築する。
我々は,Bhattacharyya距離を設定された予測ネットワークの出力分布に適用することにより,リコール能力を向上する。
論文 参考訳(メタデータ) (2023-04-14T09:31:17Z) - Unsupervised Ranking and Aggregation of Label Descriptions for Zero-Shot
Classifiers [8.434227773463022]
本当のゼロショット設定では、開発セットがないため、良いラベル記述を設計することは難しい。
本研究では, ラベル記述を教師なしの方法で選択するために, 繰り返し評価分析の確率モデルをどのように利用できるかを検討する。
論文 参考訳(メタデータ) (2022-04-20T14:23:09Z) - Scalable Approach for Normalizing E-commerce Text Attributes (SANTA) [0.25782420501870296]
本稿では,Eコマース属性値を自動的に正規化するフレームワークであるSANTAを提案する。
まず,9つの構文マッチングアルゴリズムについて広範な研究を行った。
弦の類似性だけでは属性正規化には不十分であると主張する。
論文 参考訳(メタデータ) (2021-06-12T08:45:56Z) - Unsupervised Label Refinement Improves Dataless Text Classification [48.031421660674745]
データレステキスト分類は、ラベル記述と組み合わせた文書にスコアを割り当てることで、文書を未確認のラベルに分類することができる。
有望ながら、それは重要なダウンストリームタスクごとにラベルセットの正確な説明に依存します。
この依存により、データレス分類器はラベル記述の選択に非常に敏感になり、実際にはデータレス分類の幅広い適用を妨げる。
論文 参考訳(メタデータ) (2020-12-08T03:37:50Z) - Automated Concatenation of Embeddings for Structured Prediction [75.44925576268052]
本稿では, 埋め込みの自動結合(ACE)を提案し, 構造予測タスクにおける埋め込みのより優れた結合を見つけるプロセスを自動化する。
我々は、強化学習の戦略に従い、制御器のパラメータを最適化し、タスクモデルの精度に基づいて報酬を計算する。
論文 参考訳(メタデータ) (2020-10-10T14:03:20Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - Spying on your neighbors: Fine-grained probing of contextual embeddings
for information about surrounding words [12.394077144994617]
本稿では,周辺単語の情報エンコーディングのためのコンテキスト埋め込みのきめ細かいテストを可能にする探索タスクのスイートを紹介する。
我々は、人気のあるBERT、ELMoおよびGPTコンテキストエンコーダを調べ、テストされた情報型が実際にトークン間でコンテキスト情報としてエンコードされていることを発見した。
トークン埋め込みを構築する際に,異なる種類のモデルがどのように分解し,単語レベルのコンテキスト情報を優先するかについて,これらの結果の意味を論じる。
論文 参考訳(メタデータ) (2020-05-04T19:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。