論文の概要: More Romanian word embeddings from the RETEROM project
- arxiv url: http://arxiv.org/abs/2111.10750v1
- Date: Sun, 21 Nov 2021 06:05:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-23 15:24:48.926025
- Title: More Romanian word embeddings from the RETEROM project
- Title(参考訳): RETEROMプロジェクトによるルーマニア語のさらなる埋め込み
- Authors: Vasile P\u{a}i\c{s}, Dan Tufi\c{s}
- Abstract要約: 単語埋め込み」は、単語のベクトル表現を自動的に学習する。
使用可能な単語埋め込みセットをオープンアクセス可能な大規模ライブラリを開発する計画である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automatically learned vector representations of words, also known as "word
embeddings", are becoming a basic building block for more and more natural
language processing algorithms. There are different ways and tools for
constructing word embeddings. Most of the approaches rely on raw texts, the
construction items being the word occurrences and/or letter n-grams. More
elaborated research is using additional linguistic features extracted after
text preprocessing. Morphology is clearly served by vector representations
constructed from raw texts and letter n-grams. Syntax and semantics studies may
profit more from the vector representations constructed with additional
features such as lemma, part-of-speech, syntactic or semantic dependants
associated with each word. One of the key objectives of the ReTeRom project is
the development of advanced technologies for Romanian natural language
processing, including morphological, syntactic and semantic analysis of text.
As such, we plan to develop an open-access large library of ready-to-use word
embeddings sets, each set being characterized by different parameters: used
features (wordforms, letter n-grams, lemmas, POSes etc.), vector lengths,
window/context size and frequency thresholds. To this end, the previously
created sets of word embeddings (based on word occurrences) on the CoRoLa
corpus (P\u{a}i\c{s} and Tufi\c{s}, 2018) are and will be further augmented
with new representations learned from the same corpus by using specific
features such as lemmas and parts of speech. Furthermore, in order to better
understand and explore the vectors, graphical representations will be available
by customized interfaces.
- Abstract(参考訳): 自動的に学習される単語のベクトル表現は「単語埋め込み」としても知られ、自然言語処理アルゴリズムの基本的な構成要素となっている。
単語の埋め込みを構築するにはさまざまな方法とツールがある。
ほとんどのアプローチは生のテキストに依存しており、構築項目は単語の発生や文字n-gramである。
より詳細な研究は、テキストの前処理後に抽出された追加の言語的特徴を用いている。
形態学は、生のテキストと文字のn-gramからなるベクトル表現によって明らかに提供される。
構文と意味論の研究は、補題、パート・オブ・音声、構文、意味的依存といった付加的な特徴を持つベクトル表現からより利益を得ることができる。
ReTeRomプロジェクトの主要な目的の1つは、テキストの形態、構文、意味分析を含むルーマニアの自然言語処理のための高度な技術の開発である。
そこで我々は,使い勝手の良い単語埋め込みセットのオープンアクセスライブラリを開発し,使用する特徴(単語形式,文字n-gram,補題,ポーズなど),ベクトル長,ウィンドウ/コンテキストサイズ,周波数しきい値など)を特徴付ける。
この目的のために、コローラコーパス(p\u{a}i\c{s}、tufi\c{s}、2018)上の(単語の出現に基づく)単語埋め込みのセットは、レムマや音声の一部といった特定の特徴を用いて、同じコーパスから学習された新しい表現によってさらに拡張される。
さらに、ベクトルをよりよく理解し、探索するために、グラフィカルな表現はカスタマイズされたインターフェイスで利用できる。
関連論文リスト
- From Characters to Words: Hierarchical Pre-trained Language Model for
Open-vocabulary Language Understanding [22.390804161191635]
自然言語理解のための現在の最先端モデルは、原文を離散トークンに変換するための前処理ステップを必要とする。
トークン化として知られるこのプロセスは、事前に構築された単語またはサブワード形態素の語彙に依存している。
階層的な2段階のアプローチを採用する新しいオープン語彙言語モデルを導入する。
論文 参考訳(メタデータ) (2023-05-23T23:22:20Z) - RWEN-TTS: Relation-aware Word Encoding Network for Natural
Text-to-Speech Synthesis [3.591224588041813]
膨大な数のTTSモデルが人間のような音声を生成する。
リレーショナル・アウェア・ワード・ネットワーク(RWEN)は,2つのモジュールをベースとした統語的・意味的情報を実現する。
実験結果から, 前作に比べて大幅な改善が見られた。
論文 参考訳(メタデータ) (2022-12-15T16:17:03Z) - Comparing Performance of Different Linguistically-Backed Word Embeddings
for Cyberbullying Detection [3.029434408969759]
ほとんどの場合、単語の埋め込みは生のトークンからのみ学習され、場合によってはレムマから学習される。
本稿では, 生のトークンや補題と組み合わせることで, 形態, 構文, その他の言語情報を保存することを提案する。
論文 参考訳(メタデータ) (2022-06-04T09:11:41Z) - Incorporating Constituent Syntax for Coreference Resolution [50.71868417008133]
本稿では,構成構文構造をグラフベースで組み込む手法を提案する。
また、高次近傍情報を利用して構成木に富んだ構造をエンコードすることも検討する。
on the English and Chinese parts of OntoNotes 5.0 benchmark shows that our proposed model beats a strong baseline or a new-of-the-art performance。
論文 参考訳(メタデータ) (2022-02-22T07:40:42Z) - Modelling the semantics of text in complex document layouts using graph
transformer networks [0.0]
本稿では,文書の読取パターンを近似したモデルを提案し,テキストスパン毎にユニークな意味表現を出力する。
アーキテクチャは構造化されたテキストのグラフ表現に基づいており、文書間で意味的に類似した情報を検索できるだけでなく、生成した埋め込み空間が有用な意味情報をキャプチャすることを示す。
論文 参考訳(メタデータ) (2022-02-18T11:49:06Z) - SCROLLS: Standardized CompaRison Over Long Language Sequences [62.574959194373264]
SCROLLSは長いテキストに対する推論を必要とするタスクのスイートである。
SCROLLSには要約、質問応答、自然言語推論タスクが含まれる。
すべてのデータセットを統一されたテキスト・ツー・テキスト形式で利用可能にし、モデルアーキテクチャと事前学習方法の研究を容易にするために、ライブのリーダーボードをホストします。
論文 参考訳(メタデータ) (2022-01-10T18:47:15Z) - Between words and characters: A Brief History of Open-Vocabulary
Modeling and Tokenization in NLP [22.772546707304766]
単語と文字のハイブリッドなアプローチと,学習セグメンテーションに基づくサブワードベースのアプローチが提案され,評価されていることを示す。
すべてのアプリケーションに対して銀の弾丸特異解が存在することはあり得ない。
論文 参考訳(メタデータ) (2021-12-20T13:04:18Z) - Deriving Word Vectors from Contextualized Language Models using
Topic-Aware Mention Selection [46.97185212695267]
本稿では,この基本戦略に従って単語表現を学習する手法を提案する。
我々は、文脈を符号化するワードベクトルの袋ではなく、文脈化された言語モデル(CLM)を利用する。
この単純な戦略は、単語埋め込みや既存のCLMベースの戦略よりも意味的特性をより予測し、高品質な単語ベクトルに繋がることを示す。
論文 参考訳(メタデータ) (2021-06-15T08:02:42Z) - Accurate Word Representations with Universal Visual Guidance [55.71425503859685]
本稿では,視覚指導から従来の単語埋め込みを視覚的に強調する視覚的表現法を提案する。
各単語が多様な関連画像に対応するマルチモーダルシードデータセットから,小型の単語画像辞書を構築する。
12の自然言語理解および機械翻訳タスクの実験により,提案手法の有効性と一般化能力がさらに検証された。
論文 参考訳(メタデータ) (2020-12-30T09:11:50Z) - Unsupervised Distillation of Syntactic Information from Contextualized
Word Representations [62.230491683411536]
我々は,ニューラルネットワーク表現における意味論と構造学の非教師なしの絡み合いの課題に取り組む。
この目的のために、構造的に類似しているが意味的に異なる文群を自動的に生成する。
我々は、我々の変換クラスタベクトルが、語彙的意味論ではなく構造的特性によって空間に現れることを実証する。
論文 参考訳(メタデータ) (2020-10-11T15:13:18Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。