論文の概要: GWPT: A Green Word-Embedding-based POS Tagger
- arxiv url: http://arxiv.org/abs/2401.07475v1
- Date: Mon, 15 Jan 2024 05:06:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 17:56:29.890049
- Title: GWPT: A Green Word-Embedding-based POS Tagger
- Title(参考訳): GWPT:グリーンワード埋め込みベースのPOSタグ
- Authors: Chengwei Wei, Runqi Pang, C.-C. Jay Kuo
- Abstract要約: 単語埋め込みに基づく軽量なPOSタグが提案され、GWPTと命名された。
非文脈的または文脈的単語の埋め込み、次元のインデックスを低、中、高周波数の集合に分割し、異なるN-gramで表現する。
GWPTは、モデルパラメータが少なく、トレーニングと推論の両方において計算の複雑さが著しく低い最先端の精度を提供する。
- 参考スコア(独自算出の注目度): 36.71714843512951
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a fundamental tool for natural language processing (NLP), the
part-of-speech (POS) tagger assigns the POS label to each word in a sentence. A
novel lightweight POS tagger based on word embeddings is proposed and named
GWPT (green word-embedding-based POS tagger) in this work. Following the green
learning (GL) methodology, GWPT contains three modules in cascade: 1)
representation learning, 2) feature learning, and 3) decision learning modules.
The main novelty of GWPT lies in representation learning. It uses
non-contextual or contextual word embeddings, partitions embedding dimension
indices into low-, medium-, and high-frequency sets, and represents them with
different N-grams. It is shown by experimental results that GWPT offers
state-of-the-art accuracies with fewer model parameters and significantly lower
computational complexity in both training and inference as compared with
deep-learning-based methods.
- Abstract(参考訳): 自然言語処理(NLP)の基本ツールとして、POSタグは文中の各単語にPOSラベルを割り当てる。
単語埋め込みに基づく新しい軽量POSタグが提案され, GWPT (green word-embedding-based POS tagger) と名付けられた。
グリーンラーニング(GL)手法に従い、GWPTはカスケードに3つのモジュールを含む。
1)表現学習
2)特徴学習,および
3) 意思決定モジュール。
GWPTの主な新規性は表現学習にある。
非文脈的または文脈的単語の埋め込み、次元のインデックスを低、中、高周波数の集合に分割し、異なるN-gramで表現する。
実験結果から,GWPTはモデルパラメータの少ない最先端の精度を提供し,深層学習法と比較して,学習と推論の双方において計算の複雑さが著しく低いことがわかった。
関連論文リスト
- LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。
本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。
ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文 参考訳(メタデータ) (2024-10-17T07:47:41Z) - Point-In-Context: Understanding Point Cloud via In-Context Learning [67.20277182808992]
In-context Learningによる3Dポイントクラウド理解のための新しいフレームワークであるPoint-In-Context(PIC)を紹介した。
マスク付き点モデリングを3次元点群に効果的に拡張するという技術的課題に,Joint Smplingモジュールを導入して対処する。
In-Context LabelingとIn-Context Enhancingという2つの新しいトレーニング戦略を提案し、PICの拡張版であるPoint-In-Context-Segmenter(PIC-S)を作成している。
論文 参考訳(メタデータ) (2024-04-18T17:32:32Z) - Description-Enhanced Label Embedding Contrastive Learning for Text
Classification [65.01077813330559]
モデル学習プロセスにおける自己監督型学習(SSL)と新しい自己監督型関係関係(R2)分類タスクの設計
テキスト分類とR2分類を最適化対象として扱うテキスト分類のための関係学習ネットワーク(R2-Net)の関係について検討する。
ラベルセマンティックラーニングのためのマルチアスペクト記述を得るためのWordNetからの外部知識。
論文 参考訳(メタデータ) (2023-06-15T02:19:34Z) - Word-Level Representation From Bytes For Language Modeling [46.28198397863388]
サブワードのトークン化はノイズに対して堅牢ではなく、新しい言語への一般化が難しい。
本稿では,単語レベルの表現をバイトから直接構築するクロスアテンションネットワークと,単語レベルの隠蔽状態に基づくサブワードレベルの予測を導入する。
Byte2Wordは強力なサブワードベースラインBERTと同等だが、埋め込みサイズは10%程度しかない。
論文 参考訳(メタデータ) (2022-11-23T03:11:13Z) - Robust Partial-to-Partial Point Cloud Registration in a Full Range [12.86951061306046]
本稿では,全方向1の部分対部分点クラウド登録(PPR)のためのポーズ不変対応を推定するグラフマッチング・コンセンサス・ネットワーク(GMCNet)を提案する。
GMCNetは、個別に各点クラウドのポイント記述子を、クロスコンテクスト情報や、トレーニングのための接地真理対応を使わずに符号化する。
論文 参考訳(メタデータ) (2021-11-30T17:56:24Z) - Cross-Register Projection for Headline Part of Speech Tagging [3.5455943749695034]
ロングフォームおよびヘッドラインテキストの両方でマルチドメインPOSタグをトレーニングする。
このモデルではトークン当たりの相対誤差が23%減少し,見出しあたりの19%が得られた。
我々はPOSタグ付きヘッドラインコーパスであるPOSHを作成し、ニュースの見出しのために改良されたNLPモデルの研究を奨励する。
論文 参考訳(メタデータ) (2021-09-15T18:00:02Z) - An Empirical Study on Leveraging Position Embeddings for Target-oriented
Opinion Words Extraction [13.765146062545048]
ToWE(Target-oriented opinion words extract)は、ターゲット指向の感情分析の新しいサブタスクである。
本稿では,BiLSTMに基づくモデルを用いて,位置情報を単語表現に効果的にエンコードできることを示す。
また,構文情報を組み込んだグラフ畳み込みネットワーク(GCN)を用いて,単語表現の強化を行う。
論文 参考訳(メタデータ) (2021-09-02T22:49:45Z) - Charformer: Fast Character Transformers via Gradient-based Subword
Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。
文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。
また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文 参考訳(メタデータ) (2021-06-23T22:24:14Z) - Encoding Syntactic Constituency Paths for Frame-Semantic Parsing with
Graph Convolutional Networks [4.716034416800441]
本研究では, フレーム・セマンティック・パーシング・サブタスクにおいて, 構成木からの構文情報をニューラルモデルに統合する問題について検討する。
グラフ畳み込みネットワークを用いて、各構成成分が対応する生産文法規則としてプロファイルされるような構成成分の特定の表現を学習する。
我々はこれらの表現を利用して文中の各単語の構文的特徴を構築し、単語と木内のタスク固有ノードの間の経路上のすべての構成要素の和として計算する。
論文 参考訳(メタデータ) (2020-11-26T10:10:57Z) - BURT: BERT-inspired Universal Representation from Twin Structure [89.82415322763475]
BURT (BERT inspired Universal Representation from Twin Structure) は任意の粒度の入力シーケンスに対して普遍的で固定サイズの表現を生成することができる。
提案するBURTは,Siameseネットワークを採用し,自然言語推論データセットから文レベル表現を学習し,パラフレーズ化データセットから単語/フレーズレベル表現を学習する。
我々は,STSタスク,SemEval2013 Task 5(a) など,テキスト類似性タスクの粒度によってBURTを評価する。
論文 参考訳(メタデータ) (2020-04-29T04:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。