論文の概要: Morphological Skip-Gram: Using morphological knowledge to improve word
representation
- arxiv url: http://arxiv.org/abs/2007.10055v2
- Date: Tue, 21 Jul 2020 09:01:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 12:38:38.269266
- Title: Morphological Skip-Gram: Using morphological knowledge to improve word
representation
- Title(参考訳): 形態素スキップグラム:形態素知識を用いた単語表現の改善
- Authors: Fl\'avio Santos, Hendrik Macedo, Thiago Bispo, Cleber Zanchettin
- Abstract要約: 我々は,文字n-gramのFastTextバッグを単語形態素の袋に置き換えることで,単語埋め込みを訓練する新しい手法を提案する。
結果は、FastTextと比較して、競争力のあるパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 2.0129974477913457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural language processing models have attracted much interest in the deep
learning community. This branch of study is composed of some applications such
as machine translation, sentiment analysis, named entity recognition, question
and answer, and others. Word embeddings are continuous word representations,
they are an essential module for those applications and are generally used as
input word representation to the deep learning models. Word2Vec and GloVe are
two popular methods to learn word embeddings. They achieve good word
representations, however, they learn representations with limited information
because they ignore the morphological information of the words and consider
only one representation vector for each word. This approach implies that
Word2Vec and GloVe are unaware of the word inner structure. To mitigate this
problem, the FastText model represents each word as a bag of characters
n-grams. Hence, each n-gram has a continuous vector representation, and the
final word representation is the sum of its characters n-grams vectors.
Nevertheless, the use of all n-grams character of a word is a poor approach
since some n-grams have no semantic relation with their words and increase the
amount of potentially useless information. This approach also increases the
training phase time. In this work, we propose a new method for training word
embeddings, and its goal is to replace the FastText bag of character n-grams
for a bag of word morphemes through the morphological analysis of the word.
Thus, words with similar context and morphemes are represented by vectors close
to each other. To evaluate our new approach, we performed intrinsic evaluations
considering 15 different tasks, and the results show a competitive performance
compared to FastText.
- Abstract(参考訳): 自然言語処理モデルは、ディープラーニングコミュニティに大きな関心を集めている。
この研究の分野は、機械翻訳、感情分析、名前付きエンティティ認識、質問と回答など、いくつかの応用から成り立っている。
単語埋め込みは連続した単語表現であり、これらのアプリケーションにとって不可欠なモジュールであり、一般的にディープラーニングモデルの入力語表現として使用される。
Word2VecとGloVeは、単語埋め込みを学ぶ2つの一般的な方法である。
しかし,単語の形態的情報を無視し,各単語に対して1つの表現ベクトルしか考慮しないため,限られた情報で表現を学習する。
このアプローチは、Word2VecとGloVeが単語の内部構造を知らないことを意味する。
この問題を緩和するため、FastTextモデルは各単語を n-gram 文字の袋として表現する。
したがって、各 n-gram は連続ベクトル表現を持ち、最後のワード表現はその文字 n-grams ベクトルの和である。
それでも、単語のすべての n-gram 文字の使用は、いくつかの n-gram は単語と意味的関係がなく、潜在的に役に立たない情報の量を増やすため、不十分なアプローチである。
このアプローチはトレーニングフェーズタイムも増加させる。
本研究では,単語の埋め込みを学習するための新しい手法を提案する。その目的は,単語のモルフォロジー解析を通じて,文字n-gramのFastTextバッグを単語形態素の袋に置き換えることである。
したがって、類似した文脈と形態素を持つ単語は互いに近いベクトルで表される。
提案手法を評価するために,15のタスクを考慮した本質的な評価を行い,FastTextと比較した場合の競合性能を示した。
関連論文リスト
- From Characters to Words: Hierarchical Pre-trained Language Model for
Open-vocabulary Language Understanding [22.390804161191635]
自然言語理解のための現在の最先端モデルは、原文を離散トークンに変換するための前処理ステップを必要とする。
トークン化として知られるこのプロセスは、事前に構築された単語またはサブワード形態素の語彙に依存している。
階層的な2段階のアプローチを採用する新しいオープン語彙言語モデルを導入する。
論文 参考訳(メタデータ) (2023-05-23T23:22:20Z) - Conversational Semantic Parsing using Dynamic Context Graphs [68.72121830563906]
汎用知識グラフ(KG)を用いた会話意味解析の課題を,数百万のエンティティと数千のリレーショナルタイプで検討する。
ユーザ発話を実行可能な論理形式にインタラクティブにマッピングできるモデルに焦点を当てる。
論文 参考訳(メタデータ) (2023-05-04T16:04:41Z) - STAIR: Learning Sparse Text and Image Representation in Grounded Tokens [84.14528645941128]
疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。
CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。
CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2023-01-30T17:21:30Z) - Word-Level Representation From Bytes For Language Modeling [46.28198397863388]
サブワードのトークン化はノイズに対して堅牢ではなく、新しい言語への一般化が難しい。
本稿では,単語レベルの表現をバイトから直接構築するクロスアテンションネットワークと,単語レベルの隠蔽状態に基づくサブワードレベルの予測を導入する。
Byte2Wordは強力なサブワードベースラインBERTと同等だが、埋め込みサイズは10%程度しかない。
論文 参考訳(メタデータ) (2022-11-23T03:11:13Z) - Charformer: Fast Character Transformers via Gradient-based Subword
Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。
文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。
また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文 参考訳(メタデータ) (2021-06-23T22:24:14Z) - Deriving Word Vectors from Contextualized Language Models using
Topic-Aware Mention Selection [46.97185212695267]
本稿では,この基本戦略に従って単語表現を学習する手法を提案する。
我々は、文脈を符号化するワードベクトルの袋ではなく、文脈化された言語モデル(CLM)を利用する。
この単純な戦略は、単語埋め込みや既存のCLMベースの戦略よりも意味的特性をより予測し、高品質な単語ベクトルに繋がることを示す。
論文 参考訳(メタデータ) (2021-06-15T08:02:42Z) - WOVe: Incorporating Word Order in GloVe Word Embeddings [0.0]
単語をベクトルとして定義することで、機械学習アルゴリズムがテキストを理解し、そこから情報を抽出しやすくなります。
ワードベクトル表現は、単語同義語、単語類似、構文解析など、多くのアプリケーションで使われている。
論文 参考訳(メタデータ) (2021-05-18T15:28:20Z) - Accurate Word Representations with Universal Visual Guidance [55.71425503859685]
本稿では,視覚指導から従来の単語埋め込みを視覚的に強調する視覚的表現法を提案する。
各単語が多様な関連画像に対応するマルチモーダルシードデータセットから,小型の単語画像辞書を構築する。
12の自然言語理解および機械翻訳タスクの実験により,提案手法の有効性と一般化能力がさらに検証された。
論文 参考訳(メタデータ) (2020-12-30T09:11:50Z) - Robust and Consistent Estimation of Word Embedding for Bangla Language
by fine-tuning Word2Vec Model [1.2691047660244335]
単語ベクトルを学習するための word2vec モデルを解析し,バングラ語に最も効果的な単語埋め込みを提案する。
我々は,単語ベクトルをクラスタ化して,単語の関連性について固有の評価を行うとともに,ニュース記事の特徴として異なる単語埋め込みを用いる。
論文 参考訳(メタデータ) (2020-10-26T08:00:48Z) - Embedding Words in Non-Vector Space with Unsupervised Graph Learning [33.51809615505692]
GraphGlove: エンドツーエンドで学習される教師なしグラフワード表現について紹介する。
我々の設定では、各単語は重み付きグラフのノードであり、単語間の距離は対応するノード間の最短経路距離である。
グラフに基づく表現は、単語類似性や類似性タスクにおいて、ベクターベースの手法よりもかなり優れていることを示す。
論文 参考訳(メタデータ) (2020-10-06T10:17:49Z) - Using Holographically Compressed Embeddings in Question Answering [0.0]
本研究では,事前学習した埋め込みのホログラフィック圧縮を用いてトークン,そのパート・オブ・音声,名前付きエンティティタイプを表現する。
この実装は、修正された質問応答の繰り返しディープラーニングネットワークにおいて、意味的関係が保存され、高い性能が得られることを示す。
論文 参考訳(メタデータ) (2020-07-14T18:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。