論文の概要、ライセンス

# (参考訳) SocialBERT -- オンラインソーシャルネットワーク言語モデリング用トランスフォーマー [全文訳有]

SocialBERT -- Transformers for Online SocialNetwork Language Modelling ( http://arxiv.org/abs/2111.07148v1 )

ライセンス: CC BY 4.0
Ilia Karpov and Nick Kartashev(参考訳) 現代言語理解タスクのユビキタスさは、データソースが提供するすべての知識を利用する汎用的かつ高効率なモデルの開発に関係している。 本研究では,テキスト分析中に著者のネットワークにおける位置に関する知識を利用する最初のモデルであるSocialBERを提案する。 ソーシャルネットワーク情報を学習するためのモデルについて検討し,ベースラインBERTモデルへのインジェクトに成功した。 評価の結果、この情報を埋め込むことは、与えられた著者の確率モデルの品質を7.5%まで向上させ、優れた一般化を維持していることが示された。 提案したモデルは、選択されたソーシャルネットワークの大多数のグループでトレーニングされており、これまで未知のグループで作業することが可能である。 得られたモデルは、実験のコードと同様に、適用されたタスクでダウンロードおよび使用することができる。

The ubiquity of the contemporary language understanding tasks gives relevance to the development of generalized, yet highly efficient models that utilize all knowledge, provided by the data source. In this work, we present SocialBERT - the first model that uses knowledge about the author's position in the network during text analysis. We investigate possible models for learning social network information and successfully inject it into the baseline BERT model. The evaluation shows that embedding this information maintains a good generalization, with an increase in the quality of the probabilistic model for the given author up to 7.5%. The proposed model has been trained on the majority of groups for the chosen social network, and still able to work with previously unknown groups. The obtained model, as well as the code of our experiments, is available for download and use in applied tasks.
公開日: Sat, 13 Nov 2021 16:37:15 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
1 2 0 2 v o N 3 1 1 2 0 2 v o n 3 1 である。 0.54
] L C . s c [ 1 v 8 4 1 7 0 ]LC。 sc [ 1 v 8 4 1 7 0 0.30
. 1 1 1 2 : v i X r a . 1 1 1 2 : v i X r a 0.43
SocialBERT - Transformers for Online Social SocialBERT - オンラインソーシャル用トランスフォーマー 0.84
Network Language Modelling ネットワーク言語モデリング 0.78
Ilia Karpov1[0000−0002−8106−9426] and Nick Kartashev1[0000−0002−9722−3889] Ilia Karpov1[0000−0002−8106−9426]とNick Kartashev1[0000−0002−9722−3889] 0.27
National Research University Higher School of Economics, Moscow, Russian 国立研究大学経済学部、モスクワ、ロシア 0.65
Federation {karpovilia, nickkartashev}@gmail.com Federation {karpovilia, nickkartashev}@gmail.com 0.48
Keywords: Language Modelling · Natural Language Processing · Social Network Analysis · Graph Embeddings · Knowledge Injection キーワード: 言語モデリング · 自然言語処理 · ソーシャルネットワーク分析 · グラフ埋め込み · 知識注入 0.84
Abstract. The ubiquity of the contemporary language understanding tasks gives relevance to the development of generalized, yet highly efficient models that utilize all knowledge, provided by the data source. 抽象。 現代言語理解タスクのユビキタスさは、データソースが提供するすべての知識を利用する汎用的かつ高効率なモデルの開発に関係している。 0.57
In this work, we present SocialBERT - the first model that uses knowledge about the author’s position in the network during text analysis. 本研究では,テキスト解析における著者のネットワークにおける位置に関する知識を利用する最初のモデルであるSocialBERTを提案する。 0.85
We investigate possible models for learning social network information and successfully inject it into the baseline BERT model. ソーシャルネットワーク情報を学習するためのモデルについて検討し,ベースラインBERTモデルへのインジェクトに成功した。 0.67
The evaluation shows that embedding this information maintains a good generalization, with an increase in the quality of the probabilistic model for the given author up to 7.5%. 評価の結果、この情報を埋め込むことは、与えられた著者の確率モデルの品質を7.5%まで向上させ、優れた一般化を維持していることが示された。
訳抜け防止モード: その評価は この情報を埋め込むと 与えられた著者の確率モデルの品質を7.5 %まで向上させ、優れた一般化を維持します。
0.79
The proposed model has been trained on the majority of groups for the chosen social network, and still able to work with previously unknown groups. 提案したモデルは、選択されたソーシャルネットワークの大多数のグループでトレーニングされており、これまで未知のグループで作業することが可能である。 0.64
The obtained model as well as the code of our experiments is available for download and use in applied tasks 得られたモデルと実験のコードをダウンロードして,適用タスクで使用することができる。 0.78
Introduction Online Social Networks (OSN) texts corpora size is comparable with the largest journalism, fiction, and scientific corpora. はじめに オンライン・ソーシャルネットワーク(osn) テキストコーパスのサイズは、最大のジャーナリズム、フィクション、科学コーパスに匹敵する。 0.59
Evaluations within computational linguistics conferences and Kaggle competitions prove the feasibility of their automatic analysis. 計算言語学会やカグルコンペティションにおける評価は、その自動解析の可能性を証明する。 0.64
Traditional text processing tasks like morphological analysis, sentiment analysis, spelling correction are highly challenging in such texts. 形態分析、感情分析、スペル補正といった従来のテキスト処理タスクは、そのようなテキストでは極めて難しい。 0.60
As a rule, by analyzing OSN texts we can observe a decrease in most quality metrics by 2-7%. 規則として、OSNテキストを分析することで、ほとんどの品質指標の2-7%の低下を観測できる。 0.65
For instance, the best result on the sentiment detection on Twitter dataset at SemEval 2017 [1] has an accuracy of 65.15, while a year earlier on the track SemEval 2016 [2] the best result for the general English language has an accuracy of 88.13. 例えば、SemEval 2017 [1]でのTwitterデータセットの感情検出における最良の結果の精度は65.15であり、SemEval 2016 [2]の1年前のトラックでは、一般的な英語で最高の結果の精度は88.13である。 0.81
Regarding the Russian language, comparison within the competition of morphological analysis tools MorphoRuEval-2017 [3] shows that the same tools work worse on the texts of online social networks than on fiction and news corpus - the lemmatization accuracy best result for OSN dataset is 92.29, while best result for literature dataset is 94.16. ロシア語に関して、形態素解析ツールの競合であるmorphorueval-2017 [3]の比較は、同じツールがフィクションやニュースコーパスよりもオンラインソーシャルネットワークのテキストでより良く機能していることを示している。 osnデータセットの補間精度は92.29で、文学データセットで最高の結果は94.16である。 0.65
Text processing quality decreasement is usually caused by a great amount of slang, spelling errors, region- and theme-specific features of such texts. テキスト処理の品質低下は通常、大量のスラング、スペルエラー、地域別およびテーマ別の特徴によって引き起こされる。 0.70
This can be explained by the specifics of these texts being written by non-professionals, これは、非専門家によって書かれたこれらのテキストの具体例によって説明できる。 0.53
英語(論文から抽出)日本語訳スコア
2 Ilia Karpov, Nick Kartashev 2 イリア・カルポフ ニック・カルタシェフ 0.47
i.e., by the authors without the journalist education who have no opportunity or need for professional editing of their texts. ジャーナリストの教育を受けていない作家が、自分のテキストを専門的に編集する機会も必要もない。 0.75
Existing research also indicates the specifics of the social network communication itself, such as the tendency to transform oral speech to written text (orality), tendency to express emotions in written texts (compensation), and tendency to reduce typing time (language economy) [4]. 既存の研究では、口頭で話す言葉をテキストに変換する傾向(orality)、文章中の感情を表現する傾向(compensation)、タイピング時間を短縮する傾向(language economy)など、ソーシャルネットワークコミュニケーション自体の特質も示している [4]。 0.74
BERT [5], and its improvements to natural language modeling, which apply to extremely large datasets and sophisticated training schemes, solves the problems above to a great extent, by taking into consideration the corpora vocabulary at the pre-training step, and providing knowledge transfer from other resources at the fine-tuning step. BERT[5]と、非常に大規模なデータセットや高度なトレーニングスキームに適用された自然言語モデリングの改善は、事前学習段階におけるコーパス語彙を考慮し、微調整段階における他のリソースからの知識伝達を提供することで、上記の問題を解決している。 0.80
For instance, Nguyen reports successful application of the RoBERTa model to OSN texts of Twitter users [6]. 例えば nguyen は,twitter ユーザの osn テキストへの roberta モデルの応用の成功を報告している [6]。 0.75
Nevertheless, there is no consistent approach for analyzing social network users’ texts and no effective generalized language models that utilize the structure of OSN. それでも、ソーシャルネットワーク利用者のテキストを分析するための一貫したアプローチはなく、OSNの構造を利用する効果的な汎用言語モデルも存在しない。
訳抜け防止モード: それでも一貫したアプローチはありません ソーシャルネットワークユーザーのテキストの分析 OSNの構造を利用する効果的な一般化言語モデルは存在しない。
0.78
Unlike many other text sources, any social network text has an explicitly identifiable and publicly accessible author. 他の多くのテキストソースとは異なり、ソーシャルネットワークのテキストは明示的に識別可能で、公開アクセス可能な著者を持っている。 0.54
This leads to a model that processes such a text, taking into consideration the characteristic features of its author. これは、著者の特徴を考慮に入れて、そのようなテキストを処理するモデルにつながる。
訳抜け防止モード: これはそのようなテキストを処理するモデルにつながります。 作者の特徴を考慮に入れています
0.74
Such a model would make text analysis depending on the author’s profile, significantly simplifying such tasks like correction of typos or word disambiguation by taking into account thematic interests and author’s speech characteristics. このようなモデルは、著者のプロファイルに応じてテキスト分析を行い、主題的興味や著者の発話特性を考慮して、タイプミスの訂正や単語の曖昧さなどのタスクを著しく単純化する。 0.79
Thus, our objective is to define author latent language characteristics that capture language homophily. このようにして,著者の潜在言語特性を均質に捉えて定義することが目的である。 0.62
The homophily principle stipulates that authors with similar interests are more likely to be connected by social ties. ホモフィリーの原則は、類似した関心を持つ著者が社会的結びつきによって結びつく可能性が高いことを規定している。
訳抜け防止モード: ホモフィリー原理は、 類似した関心を持つ作家は 社会的なつながりに 結びついている可能性が高い
0.57
The principle was introduced in the paper ”Homogeneity in confiding relations” [7], by Peter Marsden. この原理はピーター・マースデンの論文 "Homogeneity in confiding relations" [7] で導入された。 0.75
An interest’s homophily analysis can be found in the Lada A. Adamic paper on U.S. Elections [8]. 関心のホモフィリ分析は、Lada A. Adamic氏の米国大統領選挙に関する論文[8]で見ることができる。 0.70
It shows that people with similar political views tend to make friends with each other. 同様の政治的見解を持つ人々は互いに友人になる傾向がある。 0.81
Usually, online social network users simultaneously have several interests and tend toward network-based homophily only with respect to some projection, such as political views, as shown by Lada Adamic. 通常、オンラインソーシャルネットワーク利用者は、Lada Adamicが示すように、いくつかの関心事を持ち、政治的見解などの予測に関してのみ、ネットワークベースのホモフィリーに傾向がある。
訳抜け防止モード: 通常、オンラインのソーシャルネットワークユーザーは同時にいくつかの興味を持ち、ネットワークに向かう傾向があります。 lada adamic氏が示すように、政治的見解などです。
0.69
At the same time, online social network groups do not require any projections and are preferable for language structure modeling due to the following characteristics: 同時に、オンラインソーシャルネットワークグループは、いかなる投影も必要とせず、以下の特徴から、言語構造モデリングに好適である。
訳抜け防止モード: 同時に、オンラインのソーシャルネットワークグループは、いかなる予測も必要としない そして、以下の特徴から、言語構造モデリングに好適である。
0.70
– Groups and public pages (hereinafter “groups”) have their own pages. - グループと公開ページ(以下「グループ」)がそれぞれ独自のページを持つ。 0.89
Texts, posted at group pages are mostly monothematic since group users are sharing the same interest or discussing news, important for a certain geographical region. グループページに投稿されたテキストは、グループユーザが同じ関心を共有したり、特定の地理的領域で重要なニュースを議論しているため、ほとんど独占的です。 0.64
In both cases, it is possible to identify group’s specific vocabulary and speech patterns. どちらの場合でも、グループの特定の語彙と発話パターンを識別することができる。 0.79
– The number of groups is two orders less than that of the users. – グループ数はユーザより2桁少ない。 0.48
This enables us to train a language model suitable for the entire online social network, without significant node filtering and computation costs. これにより、大きなノードフィルタリングや計算コストを伴わずに、オンラインソーシャルネットワーク全体に適した言語モデルをトレーニングすることができる。 0.69
– Groups generate a major part of text content, whereas many social network users do not write a single word for years because they act only as content consumers. 一方、多くのソーシャルネットワークユーザーは、コンテンツ消費者としてしか機能しないため、何年にもわたって1つの単語を書かない。 0.63
At the same time, users’ interests are rather easily expressed through the groups they are subscribed to. 同時に、ユーザーの興味は、購読しているグループを通して簡単に表現される。 0.73
英語(論文から抽出)日本語訳スコア
SocialBERT - Transformers for Online Social Network Language Modelling SocialBERT - オンラインソーシャルネットワーク言語モデリング用トランスフォーマー 0.84
3 Due to the reasons above, in this paper we focus on generating a group language model and keep the user language model outside the scope of this paper. 3 以上の理由から,本稿では,グループ言語モデルの作成と,ユーザ言語モデルを本論文の範囲外に保つことに焦点を当てる。 0.62
Hereinafter we interpret a group as an author of texts written in this group’s account. 以下、このグループアカウントに記載されたテキストの著者としてグループを解釈する。 0.79
In the absence of explicit group attributes like age and gender, we focus on group homophilous relationships. 年齢や性別などの明示的なグループ属性が欠如しているため、同族関係に着目する。 0.66
We model groups social homophily through common users intersection to encourage groups with shared social neighborhoods to have similar language models. グループ間の共通ユーザ交点を通じて,グループ間のソーシャル相同性をモデル化し,類似した言語モデルを持つことを奨励する。 0.68
In this paper we focused on the masked language modelling (MLM) task because, as a result of training such a model, one can create a better basic model for the analysis of social network texts which may be further adapted to the applied tasks listed above. 本稿では,このようなモデルをトレーニングした結果,上述の応用課題にさらに適合する可能性のあるソーシャル・ネットワーク・テキストの分析のためのより優れた基礎モデルを作成することができるため,マスク言語モデリング(mlm)タスクに焦点をあてた。 0.87
We will discuss the effect of the basic model on the applied tasks in the Results section. 結果項目の応用課題に対する基本モデルの効果について論じる。 0.60
Our key contributions are as follows: 主な貢献は以下の通りである。 0.67
– We have generated a network embedding model, describing each group containing 5, 000 and more members. 5万以上のメンバを含む各グループについて,ネットワーク埋め込みモデルを作成しました。 0.70
Observed groups have no topic limitations, so we can say that our training has covered all currently existing themes in the OSN, assuming that if some topic does not have at least one group with 5, 000 subscribers, then it is not important enough for language modeling. 観測されたグループにはトピックの制限がないので、もしあるトピックが5万のサブスクライバを持つ少なくとも1つのグループを持っていなければ、言語モデリングにとって十分重要でないと仮定して、我々のトレーニングがOSNの既存のテーマをすべてカバーしていると言えるでしょう。 0.72
This can potentially lead to the model’s inability to take into account highly specialized communities and tiny regional agglomerations, but does not affect the main hypothesis that author dependent language modeling can be more effective. これは、高度に専門化されたコミュニティや小さな地域集積を考慮できない可能性があるが、著者に依存した言語モデリングがより効果的であるという主仮説には影響しない。
訳抜け防止モード: これがモデルの不備につながる可能性がある 高度に専門化されたコミュニティと小さな地域集合を考慮に入れます しかし、著者依存言語モデリングがより効果的であるという仮説には影響しない。
0.72
– We have proposed several new BERT-based models that can be simultaneously trained with respect to the group embedding, and performed training of an MLM-task using the group texts. グループ埋め込みに関して同時にトレーニング可能なBERTベースのモデルをいくつか提案し,グループテキストを用いたMLMタスクのトレーニングを実施した。 0.71
Our best model achieved 7.5% perplexity increasement in comparison to the basic BERT model training for the same text corpora. 同じテキストコーパスに対する基本的なBERTモデルトレーニングと比較して,我々の最良のモデルは7.5%のパープレキシティ向上を達成した。 0.61
This proves the appropriateness of the chosen approach. これは選択したアプローチの適切性を証明する。 0.72
The rest of this paper proceeds as follows. この論文の残りは以下の通りである。 0.73
Section 2 summarizes the related work on the modelling of OSN authors as network nodes and the existing approaches to language modelling and knowledge injection. 第2節は、OSN著者のネットワークノードとしてのモデリングに関する関連研究と、言語モデリングと知識注入に対する既存のアプローチをまとめたものである。
訳抜け防止モード: 第2節 ネットワークノードとしてのosn作成者のモデリングに関する関連研究 そして、言語モデリングと知識注入に対する既存のアプローチ。
0.75
Section 3 presents our proposed approach to continuous MLM with respect to network embedding. 第3節では,連続MLMへのネットワーク埋め込みについて提案したアプローチについて述べる。 0.59
Section 4 presents details of the experimental setup, including the description of data collection and model training hyperparameters. 第4節は、データ収集とモデルトレーニングハイパーパラメータの説明を含む、実験的なセットアップの詳細を示す。 0.76
We present the experimental results in Section 5 before making conclusions. 結論を出す前に,第5節で実験結果を示す。 0.76
Related Work In this section, we discuss related work on network node description and language modelling. 関連作品 本稿では,ネットワークノード記述と言語モデリングに関する関連研究について述べる。 0.74
Author as Network Node Network Nodeの作者 0.76
The idea to use the author’s demographic features in order to improve the analysis quality had been offered before transformer based models were applied. 分析品質を改善するために著者の人口統計機能を使用するというアイデアは、トランスフォーマティブベースのモデルが適用される前に提供されていた。 0.72
英語(論文から抽出)日本語訳スコア
4 Ilia Karpov, Nick Kartashev 4 イリア・カルポフ ニック・カルタシェフ 0.47
The existing research e g of political preferences on Twitter [8] or comments on Facebook [9], proves the users’ inclination to establish relations with users with similar interests. Twitter[8]の政治的嗜好やFacebook[9]のコメントなどの既存の調査は、ユーザーが同様の関心を持つユーザーとの関係を確立する傾向を示している。 0.77
In this work we want to model online social network group structure and language. この作業では、オンラインソーシャルネットワークグループの構造と言語をモデル化したいと考えています。 0.67
Given users and groups simultaneously interact in OSN, we can use bipartite graphs to describe groups by their users and vice versa. ユーザとグループがOSNで同時に対話することを考えると、二部グラフを使ってユーザによってグループを記述することができます。
訳抜け防止モード: OSNで同時に対話するユーザとグループを考えると、二部グラフを使ってユーザによるグループの記述ができる 逆も
0.85
For user → community bipartite graph, the affinity of groups may be described by number of common users: the more common subscribers they have, the greater their similarity is. ユーザ → コミュニティ二部グラフの場合、グループの親和性は、共通のユーザの数によって記述される。
訳抜け防止モード: ユーザ → コミュニティ二部グラフの場合、グループの親和性は共通ユーザ数によって記述できる 加入者が増えれば増えるほど 類似点があります
0.75
Therein, various metrics can be applied such as correlation, for instance the Jaccard coefficient, cosine similarity etc. これにより、例えばジャカード係数やコサイン類似性など、様々な指標が適用できる。 0.58
After calculating pairwise distances, one can obtain an adjacency matrix between all groups of the network. ペア距離を計算すると、ネットワークの全グループ間の隣接行列が得られる。 0.67
In order to reduce its dimensionality, methods based on random walk [10] and autoencoder models such as Deep Walk[11], Node2Vec[12] or a matrix factorization algorithm like NetMF[13] may be used. その次元を小さくするために、Deep Walk[11]、Node2Vec[12]、NetMF[13]のような行列因数分解アルゴリズムのようなランダムウォーク[10]とオートエンコーダモデルに基づく手法を用いることができる。 0.81
Attention models may also be used for social representations. 注意モデルは、社会的表現にも用いられる。 0.73
They are GraphBERT [14] or Graph Attention Networks[15], but they are much more computationally expensive, and for this reason their use is limited for graphs of over 105 node degree. それらはgraphbert[14]またはgraph attention networks[15]であるが、計算コストははるかに高く、そのため105ノード以上のグラフでの使用に制限がある。 0.76
Language Modelling To the best of our knowledge, at the time of writing this paper, there is no published approach to the injection of online social network structure inside transformer-based deep learning language models. 言語モデリング 私たちの知る限りでは、本稿執筆時点では、トランスフォーマーベースのディープラーニング言語モデル内でオンラインソーシャルネットワーク構造を注入するアプローチは公開されていない。 0.72
Various themes in the network may be considered standalone domains. ネットワーク内の様々なテーマはスタンドアロンドメインと見なすことができる。 0.69
Thus, the researches applying domainspecific adaptation become relevant [16], [17]. したがって、ドメイン固有適応を適用する研究が関連づけられる [16], [17]。 0.83
These studies show that domainrelevant data is useful for training with both excessive and low resource problems. これらの研究は、ドメイン関連データが過剰なリソース問題と低いリソース問題の両方でトレーニングするのに有用であることを示す。 0.56
Since we want to develop single continuous model for all possible topics inside OSN, those approaches are significantly leveraged by a large (about 100-300) number of topics, depending on the granularity degree and absence of distinct borders between the social network communities. OSN内で可能なすべてのトピックに対して単一の連続モデルを開発したいので、これらのアプローチは、ソーシャルネットワークコミュニティ間の差異の粒度や欠如に応じて、多数の(約100~300)トピックによって著しく活用されている。 0.63
Multi-domain adaptation [18] mechanisms applied in computer-based translation [19] are also of interest. コンピュータベースの翻訳[19]に適用されるマルチドメイン適応[18]機構も興味深い。 0.81
Use of knowledge distillation [20] in training produces a positive result when there are split domains and their number is rather small. 訓練における知識蒸留[20]の使用は、分割ドメインがあり、その数は比較的少ない場合に肯定的な結果をもたらす。 0.66
It makes the development of the continuous domain adaptation model relevant. これは連続的なドメイン適応モデルの開発を関連付ける。 0.84
Knowledge Injection One of the existing way of enhancing existing deep learning architectures is based on the knowledge injection approach. 知識注入 既存のディープラーニングアーキテクチャを強化する既存の方法の1つは、知識注入アプローチに基づいている。 0.49
An example of graph data injection in BERT is the work of VGCN-BERT [21], which adds graph information as a null token. BERTにおけるグラフデータインジェクションの例は、VGCN-BERT[21]の作業である。
訳抜け防止モード: BERT におけるグラフデータ注入の例は VGCN - BERT [21 ] の作業である。 これはnullトークンとしてグラフ情報を追加する。
0.75
This approach is similar to the first of our two proposed methods. このアプローチは2つの提案手法の最初のものに似ている。 0.73
The difference is that Lu proposes the addition of an ontological graph rather than a social network graph. 違いは、Luがソーシャルネットワークグラフではなく、オントロジグラフの追加を提案することだ。 0.73
Another approach, based on inserting additional layers to BERT model, is provided by Lauscher [22]. bertモデルに追加のレイヤを挿入する別のアプローチはlauscher [22]によって提供されている。 0.56
Authors show accuracy increasement up to 3% on some datasets, simultaneously having the same or 著者は、いくつかのデータセットで最大3%の精度向上を示す。 0.63
英語(論文から抽出)日本語訳スコア
SocialBERT - Transformers for Online Social Network Language Modelling SocialBERT - オンラインソーシャルネットワーク言語モデリング用トランスフォーマー 0.84
5 (Xvi , Xvk ) = 5 (Xvi, Xvk) = 0.42
(cid:88) j∈A∩B (cid:88) j・A・B 0.29
(1 − cj M )2 cj − c2 (1 − cj M )2 cj − c2 0.46
j M + (cid:88) j M + (cid:88) 0.41
j∈Ω\(A∪B) j- (複数形 j-s) 0.29
(cid:88) j∈(A(cid:76) B) (出典:88)j・(A(出典:76)B) 0.63
( cj M )2 cj − c2 (cj M )2 cj − c2 0.46
j M + j M − c2 ( cj M 2 ) cj − c2 j M + j M − c2 (cj M 2 ) cj − c2 0.44
j M (1) lower accuracy on other datasets. j M (1) 他のデータセットの精度を下げます 0.50
Our second model also modifies one of the BERT layers, but the proposed injection architecture is quite different. 第2のモデルはBERTレイヤの1つも変更していますが、提案されたインジェクションアーキテクチャはまったく違います。 0.49
Proposed Approach 提案されたアプローチ 0.53
The proposed model takes into consideration the characteristics of a domain using a pre-computed social vector for the analysis of each token of incoming text. 提案モデルでは,入力テキストの各トークンの分析にプリコンパイルされたソーシャルベクトルを用いて,ドメインの特性を考慮した。 0.82
The general training process is as follows: 一般的な訓練過程は以下の通りである。 0.68
– Generating adjacency matrices on the basis of network data – matrices preparation to evaluate the adjacency of two groups, based on mutual group members. –ネットワークデータに基づく隣接行列の生成 – 相互グループメンバーに基づく2つのグループの隣接性を評価するための行列を作成する。 0.76
– Learning social vectors - obtaining the author’s vectors using factorization -社会的ベクトルの学習-因子化を用いた著者のベクトルの取得 0.79
and random walk algorithms. ランダムウォークアルゴリズムです 0.47
– BERT training, given pre-trained social vectors -BERTトレーニング、事前学習型ソーシャルベクター 0.66
Adjacency Matrix Generation When computing the social vector, we intended to have the opportunity to use the information on the community’s local environment as well as a description of its global position relative to all groups. 隣接行列生成 ソーシャルベクターを計算する際には、コミュニティのローカル環境に関する情報と、そのグローバルな位置を全グループに対して記述する機会を得るつもりでした。 0.58
To simulate local context we have chosen the DeepWalk algorithm. ローカルコンテキストをシミュレートするために、DeepWalkアルゴリズムを選択しました。 0.65
To capture the structure of our social graphs on a more global level, we used factorization of different kinds of pairwise distance matrices between the groups. ソーシャルグラフの構造をよりグローバルなレベルで捉えるために、私たちはグループ間の異なるペアワイズ距離行列の分解を用いています。 0.75
To calculate pairwise intersection sizes for our set of groups, we created a multithreaded C++ library, which yields an intersection matrix which, as shown later, is transformed into one of the various adjacency metrics. グループ集合の対方向の交叉サイズを計算するために、我々はマルチスレッドC++ライブラリを作成し、このライブラリは、後述したように、交叉行列を生成し、様々な隣接メトリクスの1つに変換する。
訳抜け防止モード: 群の集合に対するペアワイズ交叉サイズを計算する。 私たちはマルチスレッドC++ライブラリを作成しました。 交叉行列は後述するように、様々な隣接指標の1つに変換される。
0.79
Correlation coefficient Our first algorithm was based on factorizing a pairwise correlation matrix of our set of groups. 相関係数 最初のアルゴリズムは、群集合の対相関行列を分解することに基づいていた。 0.70
Given a group as a vector of zeros and ones, having a length equal to the total number of users in the social network N , and containing a 1 for users who subscribed to our group, and a 0 otherwise. グループをゼロと1のベクトルとして与え、ソーシャルネットワークN内のユーザ総数に等しい長さを持ち、グループに加入したユーザのための1と、それ以外は0を含む。 0.76
So, in this model, we represent the set of groups of size M as a set of vectors Xvi, each containing a sampling of a Bernoulli distribution. したがって、このモデルでは、サイズ m の群の集合をベクトル xvi の集合として表現し、それぞれがベルヌーイ分布のサンプリングを含む。 0.71
Without physical uploading of all vectors in our RAM, due to huge size of the resulting matrix, we calculated the sample correlation of our vectors based only on these easily computable variables: For set A of subscribers of the group a, and the set B of subscribers of the group b, 我々のram内の全てのベクターを物理的にアップロードすることなく、結果のマトリックスの大きさが大きいため、これらの簡単な計算可能な変数のみに基づいて、ベクターのサンプル相関を計算した: a グループの加入者の集合 a と b グループの加入者の集合 b に対して。 0.79
英語(論文から抽出)日本語訳スコア
6 Ilia Karpov, Nick Kartashev 6 イリア・カルポフ ニック・カルタシェフ 0.47
we, as described in a previous section, calculated the intersection size |A ∩ B|. 前節で述べたように、交点サイズ |a と b| を計算した。 0.60
Then, using this equation we obtain the correlation coefficient that will be used as one of the possible group affinity variables: そして、この方程式を用いて、可能な群親和性変数の1つとして使われる相関係数を得る。 0.71
cor(a, b) = cor(a, b) = 0.42
Cosine coefficient (cid:112)|A| · |B| · (N − |A|) · (N − |B|) コサイン係数 (cid:112)|A| · |B| · (N − |A|) · (N − |B|) 0.52
|A ∩ B| · N − |A| · |B| |A | B| · N − |A| · |B| 0.29
(2) The most important difference of using cosine similarity instead of correlation as a distance metric between our groups, is that we normalized each user’s subscription string, therefore lowering the effect that users with a higher subscription count have on the resulting matrix. (2) グループ間の距離の指標として相関ではなくコサイン類似性を使用する場合の最も重要な違いは、各ユーザの購読文字列を正規化することで、より高い購読数を持つユーザが結果のマトリックスに与える影響を下げることである。 0.58
c2 j c2 j j Supposing that user j is the member of cj groups. c2j c2j j ユーザjがcjグループのメンバーであると仮定する。 0.50
First of all, we need to subtract the mean from the respective row in our matrix of vectors Xvi. まず第一に、ベクトル xvi の行列の各行から平均を減算する必要がある。 0.60
After this transformation we will have 1 − cj M for positive subscription position and − cj M for negative. この変換の後、正のサブスクリプション位置の 1 − cj M と負の − cj M を持つ。 0.72
We then need to divide each value by the standard deviation M = cj − c2 M . すると、各値は標準偏差 M = cj − c2 M で割る必要がある。 0.76
of a row. Dispersion equals (cid:113) 一列に並んで 分散は等しい(cid:113) 0.64
Therefore, after this transformation we will have value (1− cj したがって、この変換の後、値 (1 − cj) を持つ。 0.70
M + cj − 2 m + cj − 2 である。 0.70
(cid:113) cj − c2 (cid:113) cj − c2 である。 0.47
j M for j M (複数形 Ms) 0.38
M )/ positive subscription indicator and − cj M / M)/。 正のサブスクリプションインジケータと − cj M / 0.82
cj − c2 cj − c2 である。 0.54
j M for negative. j m は負である。 0.54
So, the final expression will be as shown in equation 1, where cj denotes the count of subscriptions from user j. したがって、最後の式は方程式 1 で示されるように、cj はユーザ j からのサブスクリプションの数を表す。 0.71
M denotes the total number of groups. M は群の総数を表す。 0.73
A denotes set of subscribers of group vk, B denotes set of subscribers of group vi. aはグループvkの加入者の集合、bはグループviの加入者の集合を表す。 0.76
Xvi is a normalized vector for group vi, and Xvk is a normalized vector for group Xvi は群 vi の正規化ベクトルであり、Xvk は群に対する正規化ベクトルである 0.83
vk. Ω denotes set of users of the social network, and(cid:76) denotes the symmetric vkだ Ωはソーシャルネットワークのユーザ集合を表し、(cid:76)は対称を表す 0.61
difference between two sets. This formula depicts one of the metrics we used to calculate the similarity between two groups on a scale from -1 to 1. 2つのセットの違い この公式は、2つのグループ間の類似度を-1から1のスケールで計算するために使ったメトリクスの1つを表しています。 0.73
Fig. 1. Social vector injection methods 図1。 社会的ベクトル注入法 0.51
Frozen Layers[CLS][EOS]BERT Layer 8BERT Layer 12FCFCDWSVDSoftMaxSA T BERT LayerFrozen LayersBERT Layer 1BERT Layer 6BERT Layer 8BERT Layer 12BERT Layer 1BERT Layer 6..... 冷凍層[CLS][EOS]BERT層8BERT層12FCFCDWSVDSoftMaxSA TBERT層Frozen層6BERT層12BERT層1BERT層6... 0.74
.BERT Layer 7..... バート・レイヤ7... 0.48
.Inputtext[CSL][EOS]InputtextSocial NetworkBERT Layer 8BERT Layer 12BERT Layer 1BERT Layer 6BERT Layer 7..... inputtext[CSL][EOS]InputtextSocial NetworkBERT Layer 8BERT Layer 12BERT Layer 1BERT Layer 6BERT Layer 7.... 0.45
.FCDWSVDSocial NetworkSV[EOS]Inputtext FCDWSVDSocial NetworkSV[EOS]Inputtext 0.39
(a) Original BERT (a)オリジナル・バート 0.76
(b) first token injection (b)最初のトークン注入 0.85
(c) SAT layer injection (c)SAT層注入 0.36
英語(論文から抽出)日本語訳スコア
SocialBERT - Transformers for Online Social Network Language Modelling SocialBERT - オンラインソーシャルネットワーク言語モデリング用トランスフォーマー 0.84
7 Matrix Factorization We use a truncated SVD algorithm to closely estimate the distance between our groups with a pairwise scalar product of our embedded vectors. 7 行列因子分解 我々は,組込みベクトルのペアスカラー積を用いて,グループ間の距離を正確に推定するために,トラッピングSVDアルゴリズムを用いる。 0.61
For pairwise distance matrix A, we compute U, Σ, V = SV D(A), and then 対距離行列 A に対して、U, Σ, V = SV D(A) を計算し、それから 0.77
obtain our vectors as rows of matrix U · √ 行列 u の行としてベクトルを得る。 0.67
Σ Random Walk Σ ランダムウォーク 0.52
Given the group membership data, we can describe the measure of their closeness based on the Jaccard coefficient, which normalizes the number of common members of two groups by their size. グループメンバーシップデータから、2つのグループの共通メンバの数をそのサイズで正規化するジャカード係数に基づいて、それらの近さの尺度を記述することができる。 0.81
Jac(a, b) = Jac(a, b) = 0.42
|A ∩ B| |A| + |B| − |A ∩ B| ~B| a| + |b| − |a |b| である。 0.33
(3) Such a metric can be efficiently used for a random walk since it describes the probability of a transition from group A to group B with the ”common user” edge. (3) このようなメトリックは、"common user"エッジを持つグループaからグループbへの遷移の確率を記述するため、ランダムウォークに効率的に使用できる。 0.61
The resulting walks were used to train the DeepWalk model with the parameters recommended by the authors: γ = 80, t = 80, w = 10 結果として得られたウォークは、著者が推奨するパラメータでDeepWalkモデルをトレーニングするために使用された: γ = 80, t = 80, w = 10。 0.73
BERT Training The vectors obtained independently as a result of random walk and SVD were integrated into the existing BERT Base model. バートトレーニング ランダムウォークとSVDにより独立に得られたベクトルを既存のBERTベースモデルに統合した。 0.60
The main purpose of the training was to teach the model to pay attention to the network vector. トレーニングの主な目的は、モデルにネットワークベクトルに注意を払うように教えることであった。 0.85
Here we used several different ways of embedding: ここでは、いくつかの異なる埋め込み方法を使いました。 0.47
– adding of a special social vector which concatenates both characteristics at -両方の特徴を結合する特別な社会的ベクトルを加える 0.82
the beginning of each sequence (Zero token injection). それぞれのシーケンスの開始(ゼロトークン注入)。 0.70
– adding special Social ATtention (SAT) layer at various positions of the -特別なソーシャルアテンション(SAT)層を様々な位置に付加する。 0.80
existing BERT model as described below. 以下に示すような既存のBERTモデル。 0.52
The general scheme of both approaches is shown at the Figure 両方のアプローチの一般的なスキームは図に示す。 0.85
1. To better inject social network information in our model, we created a special SAT layer. 1) ソーシャルネットワーク情報をモデルに注入するために, 特殊なSAT層を構築した。 0.74
The injection mechanism depends on two hyperparameters: inumber of BERT layer, chosen to be replaced by SAT layer, and C - number of channels to use in our SAT layer. 注入機構は2つのハイパーパラメータに依存します – SAT層に置換されるBERT層のインバーと,SAT層で使用するチャネル数Cです。 0.65
To inject Social Attention layer, first we pretrain basic BERT model on the entire training dataset for one epoch. ソーシャルアテンション層を注入するには、まず1つのエポックのためにトレーニングデータセット全体の基本的なBERTモデルを事前訓練する。 0.54
Then, we freeze all layers of our model, and substitute i-th layer by our SAT layer, which shown in more detail at そして、モデルのすべての層を凍結し、SAT層によってi層を置換します。
訳抜け防止モード: そして、モデルの全層を凍結し、sat層によってi - th層を置換します。 より詳細に示されています
0.68
2. The architecture of SAT layer is as follows: 2.SAT層のアーキテクチャは以下の通りである。 0.80
First, we build a 2-layer perceptron with GELU activation function between layers and SoftMax activation after second layer. まず,GELU活性化機能を持つ2層パーセプトロンを構築し,第2層の後にSoftMax活性化を行う。 0.69
We pass social network embeddings through that MLP thus obtaining new vectors W with dimensionality reduced to C. Then, we create C parallel BERT Layers, each initialised as substituted i-th layer of the original BERT. 我々は,そのMLPを通してソーシャルネットワークの埋め込みをパスし,次元をCに縮めた新しいベクトルWを得る。
訳抜け防止モード: 我々は、そのMLPを通してソーシャルネットワークの埋め込みをパスし、次元をCに減らした新しいベクトルWを得る。 私たちはC並列BERTレイヤを作成し、それぞれが元のBERTの置換i - thレイヤとして初期化します。
0.51
To compute output of SAT layer, we SAT層の出力を計算するためには 0.82
英語(論文から抽出)日本語訳スコア
8 Ilia Karpov, Nick Kartashev 8 イリア・カルポフ ニック・カルタシェフ 0.47
multiply each of the parallel bert layers with corresponding element of our resulting social vector W , and then summarise resulting vector sequences. 平行ベルト層のそれぞれを、結果の社会的ベクトル W の対応する要素と乗算し、得られたベクトル列を要約する。 0.74
The idea behind this method is to train each of our C BERT layers to be responsive for a superset of social network topics, and then represent each author as a composition of this supersets. この手法の背景にある考え方は、各C BERTレイヤがソーシャルネットワークトピックのスーパーセットに応答するように訓練し、各著者をこのスーパーセットの合成として表現することである。 0.67
Fig. 2. Social Attention layer architecture 図2。 ソーシャルアテンション層アーキテクチャ 0.61
Experimental Setup This section describes the parameters of the approach we have proposed, and varying hyperparameters of the trained models. 実験装置 本稿では、我々が提案したアプローチのパラメータと、訓練されたモデルのハイパーパラメータについて述べる。
訳抜け防止モード: 実験装置 本稿では,提案したアプローチのパラメータについて述べる。 訓練されたモデルの 様々なハイパーパラメーター
0.74
Data Collection We have used the social network VKontakte, which comprises 600 million users and 2.9 million groups. データ収集 われわれは6億人のユーザーと290万のグループからなるソーシャルネットワークvkontakteを使ってきた。 0.71
The majority of its users are Russian-speaking Internet users. 利用者の大多数はロシア語を話すインターネットユーザーである。 0.67
The social network has a rich API that automatically provides a significant amount of data related to texts and network characteristics of the network nodes (community members, users’ friends). ソーシャルネットワークにはリッチなAPIがあり、ネットワークノード(コミュニティメンバー、ユーザーの友人)のテキストやネットワーク特性に関連する大量のデータを自動的に提供します。 0.82
The VKontakte social network makes it possible to receive messages from groups, public pages, and event pages, through the program interface for noncommercial use1. vkontakteのソーシャルネットワークは、非商業的利用のためのプログラムインターフェースを通じて、グループ、公開ページ、イベントページからメッセージを受け取ることができる。
訳抜け防止モード: VKontakteのソーシャルネットワークは、グループ、パブリックページ、イベントページからメッセージを受け取ることができる。 非商用 use1 のプログラムインターフェイスを通して。
0.76
Storage and transmission of users’ personal data, including the user’s primary key (identifier), are restricted. ユーザのプライマリキー(identifier)を含むユーザの個人情報の保存と送信は制限されている。 0.77
We performed sha3 hashing of all user identifiers during the data collection step. データ収集ステップ中にすべてのユーザ識別子をsha3ハッシュ化しました。 0.66
This operation makes it impossible to calculate precisely exact user’s membership in a community, while at the same time, preserving the bipartite graph structure. この操作は、二部グラフ構造を保存しながら、コミュニティ内のユーザの正確なメンバシップを正確に計算することは不可能である。 0.80
We did hashing with python-sha3 library2. python-sha3 library2でハッシュを行いました。 0.55
First we collected information on the size of common ties, then we selected the communities comprising 5, 000 or more members. まず,共通関係の大きさに関する情報を収集し,5,000人以上のコミュニティを選定した。 0.72
We have established this 私たちはこれを確立し 0.61
1 https://vk.com/dev/r ules 2 https://github.com/b jornedstrom/python-s ha3 1 https://vk.com/dev/r ules 2 https://github.com/b jornedstrom/python-s ha3 0.19
BERT Layer 1 BERT Layer 2BERT Layer 3BERT Layer .... BERT層1 BERT層2 BERT層3 BERT層... 0.34
BERT Layer n✕✕✕✕✕+Bert Layer OutputSocial Weightsw0w1w2.. bert層 bert層 出力ソーシャルウエイトsw0w1w2。 0.35
.wn ウン 0.67
英語(論文から抽出)日本語訳スコア
SocialBERT - Transformers for Online Social Network Language Modelling SocialBERT - オンラインソーシャルネットワーク言語モデリング用トランスフォーマー 0.84
9 threshold because small groups are often closed or updated irregularly. 9 小さなグループはしばしば閉じたり、不規則に更新されるため、閾値。 0.52
It lengthens the stage of the matrix preprocessing and does not improve the quality of the model training. 行列の前処理の段階を延長し、モデルトレーニングの品質を向上しない。 0.60
Our final network included 309, 710 communities with given sizes. 最終ネットワークには309,710のコミュニティがあり、その規模は一定でした。 0.55
We collected 1, 000 messages from 2019 for each selected group. 選ばれたグループ毎に2019年から1万のメッセージを収集しました。 0.62
The above period was chosen because we intended to obtain a thematic structure of the network which was not influenced by recent epidemiological issues. 以上の時期は,最近の疫学的な問題から影響を受けないネットワークの主題構造を得るためであった。 0.67
If a group wrote fewer than 1, 000 messages, we used the actual number of texts. グループで1万以下のメッセージを書いた場合、実際のテキストの数を使いました。 0.74
If the community wrote more than the abovementioned number of messages, we randomly chose 1, 000 messages. コミュニティが上記の数以上のメッセージを書いた場合、ランダムに10000のメッセージを選択しました。 0.77
The length of the majority of messages was less than 500 words. メッセージの大多数の長さは500語以下だった。 0.73
For the construction of the text language model, we used only the first 128 tokens of the text. テキスト言語モデルの構築には,テキストの最初の128トークンのみを使用しました。 0.73
Network Modelling ネットワークモデリング 0.76
We performed DeepWalk [11] training, applying the standard parameters recommended by the authors. 著者らが推奨する標準パラメータを適用し,deepwalk [11]トレーニングを行った。 0.77
Independently, we managed to obtain our social vectors using DeepWalk and SVD of correlation matrices and cosine group-wise distance. 独立に,相関行列とコサイン群間距離のDeepWalkとSVDを用いて社会的ベクトルを得ることができた。 0.68
To compute SVD part of social embedding computing, we were using fbpca3 framework by Facebook, with n iters = 300 and others parameters set by default, and which was running for 10 hours on 20 CPU cores (40 threads) Intel Xeon(R) Gold 5118 CPU with 1TB RAM. ソーシャル埋め込みコンピューティングのSVD部分を計算するために、Facebookではfbpca3フレームワークを使用して、n iters = 300などのパラメータをデフォルトで設定し、20CPUコア(40スレッド)のIntel Xeon(R) Gold 5118 CPUで1TB RAMで10時間動作していました。 0.82
Language Model Training 言語モデルトレーニング 0.81
As a base for our language modelling experiment, we used RuBERT: Multilingual BERT, adapted and pre-trained for the Russian language by DeepPavlov [23]. 言語モデリング実験の基盤として、DeepPavlov氏[23]によってロシア語に適応および事前訓練された、RuBERT: Multilingual BERTを使用しました。 0.77
We ran a series of experiments to compare the ways in which social embeddings were integrated into BERT and the ways in which they were obtained. 我々は,ソーシャル埋め込みをBERTに統合する方法と,それらの取得方法を比較するために,一連の実験を行った。 0.76
For the purpose of the training and the evaluation of our model, we created 3 different datasets, as to better illustrate the performance of our model in different situations. モデルのトレーニングと評価を目的として、3つの異なるデータセットを作成し、異なる状況下でのモデルの性能をよりよく説明した。 0.74
First dataset, containing posts from 278, 739 randomly chosen groups, is used by our model on the training stage, so it will be referenced as training set below. 最初のデータセットは、278、739のランダムに選択されたグループからの投稿を含んでおり、トレーニング段階で私たちのモデルが使用しています。 0.79
Second dataset, also containing posts from the same 278, 739 groups as in training, contains new text data, previously unseen by our model on the training stage. 2番目のデータセットは、トレーニング中と同じ278,739のグループからの投稿も含んでいて、トレーニングステージのモデルでは認識できなかった新しいテキストデータを含んでいます。 0.67
This dataset is called validation-known (val-k). このデータセットは Validation-known (val-k) と呼ばれる。 0.60
The final datasets, contains posts from remaining 30, 971 groups, so when validating on this data the only information our model knows about the source is the social embeddings we pass to our model, which makes the task a little more challenging, because unlike in the validation-known dataset our model hasn’t seen different posts from the same author on the training stage. 最終的なデータセットには、残りの30,971のグループからの投稿が含まれているので、このデータで検証する場合、私たちのモデルがソースについて知っている唯一の情報は、私たちのモデルに渡すソーシャル埋め込みだけです。
訳抜け防止モード: 最終的なデータセットには、残りの30,971グループからの投稿が含まれている。 このデータを検証する際には モデルがソースについて知っている情報だけが モデルに渡される社会的な埋め込みです タスクを少し難しくします 検証 - 既知のデータセットとは異なり 私たちのモデルは、トレーニング段階で同じ著者から異なる投稿を目にしていません。
0.73
This dataset is called validation-unknown (val-u). このデータセットは validation-unknown (val-u) と呼ばれる。 0.60
3 https://fbpca.readth edocs.io 3 https://fbpca.readth edocs.io 0.27
英語(論文から抽出)日本語訳スコア
10 Ilia Karpov, Nick Kartashev 10 イリア・カルポフ ニック・カルタシェフ 0.47
From our initial set of 309, 710 groups we selected 189, 496 groups which contained at least 5 texts of sufficient length, with mean number of texts per group of 174.48, and standard deviation of 125.5. 初期セット309,710グループの中から,少なくとも5つの十分な長さのテキストを含む189,496グループを選択し,グループごとの平均テキスト数174.48,標準偏差125.5とした。 0.80
All our experiments were conducted on a machine with Tesla V100 GPU with 32 GB of video memory for BERT training and Intel Xeon(R) Gold 5118 CPU with 1TB RAM for random walk and matrix factorization. 私たちの実験はすべて、bertトレーニング用のビデオメモリ32gbのtesla v100 gpuとランダムウォークとマトリックスファクタ化のための1tb ramのintel xeon(r) gold 5118 cpuを備えたマシンで行われました。
訳抜け防止モード: BERTトレーニング用ビデオメモリ32GBのTesla V100 GPUを搭載したマシン上で実験を行った。 そして、Intel Xeon(R) Gold 5118 CPU、1TB RAMでランダムウォークと行列の分解を行う。
0.79
There was a total count of 43, 232, 000 training sequences, 5, 404, 000 val-k 合計で43,232,000のトレーニングシーケンス、5,404,000のval-kがあった 0.75
sequences, and 5, 404, 000 val-u sequences in our data. データ中のシーケンスと5,404,000のval-uシーケンス。 0.68
Each experiment was trained for a total of one to two weeks on Tesla V100, in each experiment 1, 351, 000 − 2, 702, 000 training steps were made (training was stopped in case of overfitting). 各実験はTesla V100で1週間から2週間のトレーニングが行われ、各実験では1, 351, 000 − 2, 702, 000のトレーニングステップが実施された(オーバーフィッティングの場合はトレーニングが中止された)。 0.76
Each experiment used a learning rate of 1e-5, and an Adam optimizer with a warmup of 20, 000 steps. 各実験では1e-5の学習速度と、20000ステップのウォームアップを備えたAdamオプティマイザを使用した。 0.61
Random seed was fixed for each series of experiments, and a total of 5 series of experiments with different random seeds were conducted. 各実験で無作為種子を固定し,無作為種子の異なる5種類の実験を行った。
訳抜け防止モード: ランダムシードは一連の実験ごとに固定された。 また,無作為種子の異なる5種類の実験を行った。
0.79
– Social embedding vector added to zero token embedding, uses concatenation of vectors from SVD of correlation matrix and vectors obtained by DeepWalk. – ゼロトークン埋め込みに付加されたソーシャル埋め込みベクトルは、相関行列のSVDとDeepWalkが取得したベクトルの連結を利用する。 0.75
– Social embedding vector added to zero token embedding, uses concatenation of vectors from SVD of cosine similarity matrix and vectors obtained by DeepWalk. – ゼロトークン埋め込みに追加されるソーシャル埋め込みベクトルは、コサイン類似性行列のSVDとDeepWalkによって得られるベクトルの連結を利用する。 0.75
– Social embedding vector added to zero token embedding, uses just vectors -ゼロトークン埋め込みにソーシャル埋め込みベクターを追加、単にベクターを使う 0.72
obtained by DeepWalk. DeepWalkが取得。 0.67
– Baseline BERT, no social network embeddings used. ベースラインBERT、ソーシャルネットワークの埋め込みは使用しない。 0.59
– BERT with SAT layer. バート (bert) - satのレイヤー。 0.30
It uses concatenation of vectors of SVD of the correlation matrix and the vectors obtained by DeepWalk as a social embedding. これは相関行列のsvdベクトルとディープウォークによって得られるベクトルの結合を社会的埋め込みとして用いる。 0.74
Throughout our experiments we found out that layer number hyperparameter i has no significant meaning on our model performance, so we chose i = 11, as the best value for i with insignificant lead. 実験を通して、我々は層数ハイパーパラメータiがモデル性能に有意な意味を持たないことを見出したので、重要なリードを持つiにとって最善の値としてi = 11を選択した。
訳抜け防止モード: 実験を通して、私たちはそれを発見しました。 レイヤー番号 ハイパーパラメータ Iは モデル性能に意味がない ですから i = 11 を 重要でない鉛の値として選んだのです
0.76
We found no improvement when increasing C past 32, however, times and memory costs were very high, so we stopped with value C = 32. C を 32 に増加させると,時間とメモリコストが非常に高かったため,C = 32 の値で止まった。 0.70
Results We evaluated the obtained model using the quality of predicting the missing token in the sentence and the perplexity measure, used in the original works such as BERT and RoBERTa. 結果 文中の欠落トークンの予測精度と,BERT や RoBERTa などのオリジナル作品で使用されている難易度尺度を用いて,得られたモデルを評価した。 0.76
The absolute value of perplexity for the given model depends on many parameters such as the size of the model vocabulary, tokenization parameters, and fine-tuning dataset. 与えられたモデルに対するパープレキシティの絶対値は、モデル語彙のサイズ、トークン化パラメータ、微調整データセットなど多くのパラメータに依存する。 0.77
Thus, it is rather difficult to evaluate the direct perplexity influence on the solution of any applied problem. したがって、任意の応用問題の解に対する直接パープレキシティの影響を評価することは比較的困難である。 0.74
Our case is further complicated by the necessity to prepare our own benchmark, since, as far as we know, none of the existing datasets contain the information about the author’s social ties used by our model. 既存のデータセットには、私たちのモデルで使用されている著者の社会的結びつきに関する情報が含まれていないため、私たちのケースはさらに複雑です。 0.61
On the other hand, perplexity difference for the same basic model, trained on exactly the same corpus with the same preprocessing, must affect the quality of 一方、同じ前処理の全く同じコーパスで訓練された同じ基本モデルに対するパープレキシティの差は、品質に影響を与えなければならない。 0.78
英語(論文から抽出)日本語訳スコア
SocialBERT - Transformers for Online Social Network Language Modelling SocialBERT - オンラインソーシャルネットワーク言語モデリング用トランスフォーマー 0.84
11 Fig. 3. Zero injection test evaluation, val-u dataset 11 図3。 ゼロインジェクションテスト評価, val-uデータセット 0.58
Fig. 4. SAT layer test evaluation on val-u dataset 図4。 val-uデータセットを用いたSAT層評価 0.61
01000200030004000500 01.541.561.581.601.6 21.641.661.68Cross-E ntropy LossZero token injectionBaseline BERT1 epoch050010001500200 025003000350040001.4 81.501.521.541.56Cro ss-Entropy LossSAT injectionBaseline BERT1 epoch 01000200030004000500 01.541.561.581.601.6 21.641.661.68 クロスエントロピー損失ゼロ トークンインジェクションベースライン bert1 epoch050010002000200 02500300030003000350 040001.481.501.521.5 41.56クロスエントロピー損失satインジェクションベースラインbert1epoch 0.14
英語(論文から抽出)日本語訳スコア
12 Ilia Karpov, Nick Kartashev 12 イリア・カルポフ ニック・カルタシェフ 0.47
the applied tasks, as shown by the RoBERTa and original BERT paper authors: as perplexity decreases, the quality of classification on the SST-2 (for RoBERTa and BERT), MNLI-m and MRPC (for BERT) dataset increases. RoBERTaとBERTの論文で示されているように、適用タスクは、複雑度が減少するにつれて、SST-2(RoBERTaとBERT)、MNLI-mおよびMRPC(BERT)データセットの分類品質が向上する。 0.64
Thus, the perplexity difference for two initially identical BERT models, trained on the same texts, indicates better trainability and further effectiveness for the model with lower perplexity. したがって、同じテキストでトレーニングされた2つの初期同一のbertモデルのパープレキシティ差は、トレーニング性が向上し、より低いパープレキシティを持つモデルに対するさらなる有効性を示す。 0.58
The original BERT paper [5] reports a perplexity of 3.23 for the 24 layer model with 1024 token input. オリジナルのbert論文[5]は、1024トークン入力を持つ24層モデルのパープレキシティを3.23と報告している。 0.57
The BERT Base model, trained on the same corpora has a perplexity of at least 3.99 both for English and Russian language. 同じコーパスで訓練されたBERTベースモデルは、英語とロシア語の両方で少なくとも3.99の難易度を持つ。 0.67
This can be explained by the significant variation in topics, and even languages, covered by those models. これは、これらのモデルでカバーされるトピック、さらには言語の変化によって説明できる。 0.66
Since online social network (OSN) texts are a subset of the entire text array, training only on OSN reduces perplexity to 2.83 for the multilanguage BERT Base model (RuBert OSN). オンラインソーシャルネットワーク(OSN)テキストはテキスト配列全体のサブセットであるため、OSN上でのトレーニングは多言語BERTベースモデル(RuBert OSN)の難易度を2.83に削減する。 0.72
Further improvement is possible through the use of additional information regarding social vectors, allowing the evaluation measure to be reduced to 2.72, as shown in Table 2. ソーシャルベクターに関する追加情報を利用することにより、さらなる改善が可能となり、評価尺度を表2に示すように2.72に減らすことができる。 0.80
Baseline BERT Zero token inj. Baseline BERT Zero token inj。 0.77
SNA Model LM Model Data Loss — 1.568 DW only 1.563 Cos. SNA Model LM Model Data Loss – 1.568 DW 1.563 Cos。 0.45
& DW Zero token inj. とdw zero token inj。 0.58
val-u 1.551 1.542 Corr. val-u 1.551 1.542 corr。 0.27
& DW Zero token inj. とdw zero token inj。 0.58
Corr. & DW SAT injection 1.473 — 1.500 Corr. Corr DW SATインジェクション1.473 – 1.500 Corr。 0.50
& DW Zero token inj. とdw zero token inj。 0.58
val-k 1.486 Corr. val-k 1.486 Corr 0.34
& DW SAT injection 1.393 DW SAT インジェクション 1.393 0.85
Baseline BERT ベースラインBERT 0.55
Table 1. Comparison of various network vectors and strategies of BERT Pretraining 表1。 BERT事前学習における各種ネットワークベクトルと戦略の比較 0.78
Table 1 shows the averaged loss function for last 50 iterations before the model stops training. 表1は、モデルがトレーニングをやめる前に、最後の50回の平均損失関数を示します。 0.71
The best result is achieved when using the concatenation of the Deep Walk (DW) embedding and the correlation coefficient (Corr.) as the network vector. ネットワークベクトルとして、ディープウォーク(DW)埋め込みと相関係数(Corr.)の連結を用いると、最もよい結果が得られる。 0.69
Concatenation of cosine similarity and Deep Walk (DW) shows a bit worse results. コサイン類似性とディープウォーク(DW)の結合は、やや悪い結果を示す。 0.65
Validation of model on val-u dataset (Figure 3) shows that injecting (Corr. & DW) network vector into a zero token improves the base BERT model by no more than 0.03 points of loss function. val-uデータセット上のモデルのバリデーション(図3)は、ゼロトークンに(Corr. & DW)ネットワークベクトルを注入することで、損失関数の0.03ポイント以下でベースBERTモデルを改善することを示す。 0.79
Further training doesn’t lead to any improvements. さらなるトレーニングは改善にはつながりません。 0.68
Replacing the eleventh layer of the BERT model with the SAT layer improves the model by 0.21 points compared to the baseline BERT loss results (Figure 4). BERTモデルの11番目の層をSAT層に置き換えると、ベースラインBERT損失結果と比較して0.21ポイント改善する(図4)。 0.81
Figures 3 and 4 are built for the unknown texts of earlier unknown groups (dataset val-u). 図 3 と 4 は、未知のグループ(データセット val-u)の未知のテキストに対して構築される。 0.67
Evaluation on the unknown texts of the known groups (dataset val-k ) shows more significant increase up to 0.11 points of loss function. 既知のグループの未知のテキスト (dataset val-k ) の評価は、損失関数の0.11ポイントの大幅な増加を示している。 0.74
Most of the groups we have selected do not change subscribers and topic significantly over time, which will allow either, to use pretrained group embedding groups for analysis, or to search for the most similar community, based on social network characteristics. 選択したグループのほとんどは、時間とともに購読者やトピックを著しく変更することなく、事前訓練されたグループ埋め込みグループを分析に使用したり、ソーシャルネットワークの特徴に基づいて最も類似したコミュニティを検索したりすることができる。 0.81
英語(論文から抽出)日本語訳スコア
SocialBERT - Transformers for Online Social Network Language Modelling SocialBERT - オンラインソーシャルネットワーク言語モデリング用トランスフォーマー 0.84
13 Model BERT 12L 3.54 BERT Large 3.23 RuBert RuBert OSN 2.83 SocialBERT 2.62 13 Model BERT 12L 3.54 BERT Large 3.23 RuBert RuBert OSN 2.83 SocialBERT 2.62 0.60
Perplexity Loss 1.82 1.69 2.00 1.50 1.39 パープレキシティ損失 1.82.69 2.00 1.50 1.39 0.48
4.0 Table 2. BERT base models perplexity 4.0 表2。 BERTベースモデル複雑度 0.61
Table 2 shows relative difference of perplexity and loss function for different forks of initial BERT Base model. 表2は、初期BERTベースモデルの異なるフォークに対するパープレキシティと損失関数の相対差を示す。 0.74
We can observe that a two times increase in number of BERT layers can reduce perplexity by 8.8% from 3.54 to 3.23. BERT層数が2倍増加すると、パープレキシティが3.54から3.23に8.8%減少する。 0.55
At the same time, the use of network vectors can reduce perplexity by 7.5% from 2.83 to 2.62 for the val-k dataset. 同時に、ネットワークベクトルの使用は、val-kデータセットのパープレキシティを2.83から2.62に7.5%削減することができる。 0.62
This result is comparable to the 8% perplexity improvement within the RoBERTa model. この結果はロバータモデルにおける8%の複雑度改善に匹敵する。 0.75
We consider the proposed model useful for all language understanding tasks that implicitly use probabilistic language modeling, first of all, entity linking, spell-checking, and fact extraction. 提案モデルは,確率的言語モデリングを暗黙的に使用するすべての言語理解タスク,すなわちエンティティリンク,スペルチェック,ファクト抽出に有用であると考えられる。 0.87
The model shows very promising results on short messages and texts with poor context: モデルは、短いメッセージとコンテキストの悪いテキストに対して非常に有望な結果を示します。 0.64
(1) The obtained examples demonstrate that the model successfully learns regional specifics. 1) 得られた例は, モデルが地域特性の学習に成功していることを示す。 0.68
For example, for the ”[MASK] embankment” pattern, the basic BERT model recommendation is ”Autumn embankment”, while the model initialized with the Saint Petersburg regional groups offers ”Nevskaya embankment” based on the Neva River in the Saint Petersburg. 例えば、"[mask]エンバンクメント"パターンでは、基本的なbertモデルの推奨は"autumn embankment"であり、サンクトペテルブルク地域グループで初期化されたモデルは、サンクトペテルブルクのネヴァ川に基づく"nevskaya embankment"を提供している。 0.67
(2) The model can be useful for Link Prediction tasks on short texts. (2)このモデルは短いテキストのリンク予測タスクに有用である。 0.71
For example, for the pattern ”we read Alexander [MASK] today” baseline BERT model returns ”we read Alexander Korolev today” (actor and producer) while model with poetry group vector initialization returns ”we read Alexander Blok today” (well known poet) . 例えば、パターンとして、"Alexander [MASK] today"ベースラインのBERTモデルから"Alexander Korolev today"(アクターとプロデューサ)、一方で詩群ベクトル初期化によるモデルから"Alexander Blok today"(よく知られた詩人)が返ってくる。
訳抜け防止モード: 例えば、パターンについては、Alexander [MASK ] today ”baseline BERT model return ”、Alexander Korolev today ”(俳優とプロデューサー)と読みました。 詩群ベクトル初期化を返すモデル」 我々は今日アレクサンドル・ブロック(Alexander Blok)を読んだ(有名な詩人)。
0.86
(3) It is also useful in tasks of professional slang detection. 3)専門的なスラング検出のタスクにも有用である。 0.66
For example, given the pattern ”Big [MASK]”, basic BERT model returns ”Big bro” while model with Data Science group vector returns ”Big data”. 例えば、"Big [MASK]"というパターンを考えると、基本的なBERTモデルは"Big Bro"を返すが、Data Scienceグループベクトルを持つモデルは"Big Data"を返す。 0.79
Conclusion In this paper we present the SocialBERT model for the author aware language modelling. 結論 本稿では著者が認識する言語モデリングのためのSocialBERTモデルを提案する。 0.74
Our model injects the author social network profile to BERT, thus turning BERT to be author- or domain- aware. 我々のモデルは著者のソーシャルネットワークプロファイルをBERTに注入し、BERTを著者またはドメイン意識に転換する。 0.52
We select 310 thousand groups and 43 million texts that describe nearly all topics being discussed in the entire network. ネットワーク全体で議論されているほぼすべてのトピックを記述した3万1000のグループと4300万のテキストを選択します。 0.61
The proposed model demonstrates its effectiveness by improving the value of perplexity for the Masked Language Modelling task by up to 7.5%. 提案モデルは,マスク型言語モデリングタスクのパープレキシティを最大7.5%向上させることにより,その効果を示す。 0.83
The model has the best results for new texts of already seen groups, still showing good transfer learning for texts of earlier unseen groups. このモデルは、すでに見られているグループの新しいテキストに対して最良の結果をもたらし、まだ未確認グループのテキストに対する良い転帰学習を示している。
訳抜け防止モード: このモデルは、すでに見られたグループの新しいテキストに対して最良の結果をもたらす。 未確認グループのテキストに 良い転校生がいて
0.70
We believe that the proposed model can be useful as a basic 提案モデルは基礎として有用であると信じています 0.79
英語(論文から抽出)日本語訳スコア
14 Ilia Karpov, Nick Kartashev 14 イリア・カルポフ ニック・カルタシェフ 0.47
model for text analysis of Online Social Network texts and lead to author-aware generative models. オンラインソーシャルネットワークテキストのテキスト解析モデルと著者認識生成モデル 0.46
Acknowledgements The article was prepared within the framework of the HSE University Basic Research Program and through computational resources of HPC facilities provided by NRU HSE. 覚書 本論文は,HSE大学基礎研究プログラムの枠組みと,NRU HSEが提供するHPC施設の計算資源を用いて作成した。 0.65
References 1. Sara Rosenthal, Noura Farra, and Preslav Nakov. 参考文献 1. サラ・ローゼンタール、ノウラ・ファラ、プレスラフ・ナコフ 0.59
SemEval-2017 task 4: Sentiment analysis in Twitter. semeval-2017 task 4: twitterの感情分析。 0.40
In Proceedings of the 11th International Workshop on Semantic Evaluation (SemEval-2017), pages 502–518, Vancouver, Canada, August 2017. 第11回意味評価国際ワークショップ(semeval-2017)第502-518ページ,バンクーバー,カナダ,2017年8月 0.64
Association for Computational Linguistics. 2. Maria Pontiki, Dimitris Galanis, Haris Papageorgiou, Ion Androutsopoulos, Suresh Manandhar, Mohammad AL-Smadi, Mahmoud Al-Ayyoub, Yanyan Zhao, Bing Qin, Orph´ee De Clercq, V´eronique Hoste, Marianna Apidianaki, Xavier Tannier, Natalia Loukachevitch, Evgeniy Kotelnikov, Nuria Bel, Salud Mar´ıa Jim´enez-Zafra, and G¨ul¸sen Eryi˘git. 計算言語学会会員。 2. マリア・ポンティキ、ディミトリス・ガラニス、ハリス・パパゲオルギオ、イオン・アンドルートソポウロス、サレシュ・マナンダル、モハンマド・アル=スマディ、マフムード・アル=アユブ、ヤヤン・ザオ、ビン・クイン、オルフ・デ・クレルク、V ́eronique Hoste、マリアンナ・アピディアナキ、ザビエル・タンニエ、ナタリア・ルーカチェヴィッチ、エヴゲニイ・コテルニコフ、ヌリア・ベル、サルド・マル・チア・ジム ́enez-Zafra、グ・シュルル・シュセン・エリイ・ジギジチ。
訳抜け防止モード: 計算言語学会会員。 2 . maria pontiki, dimitris galanis, haris papageorgiou, ion androutsopoulos suresh manandhar, mohammad al - smadi, mahmoud al - ayyoub, yanyan zhao, bing qin, orph ́ee de clercq, v eronique hoste, marianna apidianaki, xavier tannier, natalia loukachevitch, evgeniy kotelnikov ヌリア・ベル (nuria bel, salud mar ́ıa jim ́enez) - ザフラ (zafra) と グウル・イセン・エリイ・ジジ (g )。
0.59
SemEval-2016 task 5: Aspect based sentiment analysis. semeval-2016 task 5: アスペクトベースの感情分析。 0.70
In Proceedings of the 10th International Workshop on Semantic Evaluation (SemEval2016), pages 19–30, San Diego, California, June 2016. 第10回意味評価国際ワークショップ(semeval2016)第19-30ページ,カリフォルニア州サンディエゴ,2016年6月 0.66
Association for Computational Linguistics. 3. A. Sorokin, T. Shavrina, O. Lyashevskaya, V. Bocharov, S. Alexeeva, K. Droganova, A. Fenogenova, and D. Granovsky. 計算言語学会会員。 3. A. Sorokin, T. Shavrina, O. Lyashevskaya, V. Bocharov, S. Alexeeva, K. Droganova, A. Fenogenova, D. Granovsky 0.50
Morphorueval-2017: an evaluation track for the automatic morphological analysis methods for russian. morphorueval-2017:ロシア語の自動形態素解析のための評価トラック。 0.74
Komp’yuternaya lingvistika i intellektual’nyye tekhnologii, 1:297–313, 2017. Komp’yuternaya lingvistika i intellektual’nyye tekhnologii, 1:297–313, 2017 0.47
4. D. Crystal. Language and the Internet. 4.D.クリスタル 言語とインターネット。 0.67
Cambridge University Press, 2006. ケンブリッジ大学出版局、2006年。 0.58
5. Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 5. Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova 0.39
Bert: Pre- Bert: Pre- 0.47
training of deep bidirectional transformers for language understanding. 言語理解のための 双方向トランスフォーマーの訓練。 0.80
2019. 6. Dat Quoc Nguyen, Thanh Vu, and Anh Tuan Nguyen. 2019. 6.Dat Quoc Nguyen、Tanh Vu、Anh Tuan Nguyen 0.51
BERTweet: A pre-trained In Proceedings of the 2020 Conference on language model for English tweets. bertweet: 英語ツイートのための言語モデルに関する2020年のカンファレンスの議事録で事前トレーニングされたものだ。 0.61
Empirical Methods in Natural Language Processing: System Demonstrations, pages 9–14, Online, October 2020. 自然言語処理における経験的手法:システムデモ、9-14ページ、オンライン、2020年10月。 0.67
Association for Computational Linguistics. 7. Peter V. Marsden. 計算言語学会会員。 7. ピーター対マースデン 0.53
Homogeneity in confiding relations. Social Networks, 10(1):57– 交際関係の均一性。 ソーシャルネットワーク 10(1):57– 0.71
76, 1988. 8. Lada A. Adamic and Natalie Glance. 76, 1988. Lada A. AdamicとNatalie Glance。 0.57
The political blogosphere and the 2004 u.s. election: Divided they blog. 2004年のアメリカ合衆国大統領選挙と政治ブロゴスフィアは、彼らのブログを分割した。 0.48
In Proceedings of the 3rd International Workshop on Link Discovery, LinkKDD ’05, page 36–43, New York, NY, USA, 2005. 第3回リンクディスカバリー国際ワークショップの議事録では、linkkdd ’05, page 36-43, new york, ny, usa, 2005 が紹介されている。 0.69
Association for Computing Machinery. アソシエーション・フォー・コンピューティング・マシンズ(Association for Computing Machinery)の略。 0.36
9. Bernhard Rieder. 9. ベルンハルト・リーダー 0.50
Studying facebook via data extraction: The netvizz application. データ抽出によるfacebookの研究:netvizzアプリケーション。 0.77
In Proceedings of the 5th Annual ACM Web Science Conference, WebSci ’13, page 346–355, New York, NY, USA, 2013. 第5回acm web science conferenceの議事録では、websci ’13, page 346–355, new york, ny, usa, 2013が紹介されている。 0.73
Association for Computing Machinery. アソシエーション・フォー・コンピューティング・マシンズ(Association for Computing Machinery)の略。 0.36
10. Mohammad Mehdi Keikha, Maseud Rahgozar, and Masoud Asadpour. 10. Mohammad Mehdi Keikha, Maseud Rahgozar, Masoud Asadpour 0.33
Community aware random walk for network embedding. ネットワーク埋め込みのためのコミュニティ対応ランダムウォーク。 0.66
Knowledge-Based Systems, 148:47 – 54, 2018. 知識ベースシステム、148:47 - 2018年54。 0.70
11. Bryan Perozzi, Rami Al-Rfou, and Steven Skiena. 11.Bryan Perozzi, Rami Al-Rfou, Steven Skiena 0.37
Deepwalk. Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining, Aug 2014. ディープウォーク 2014年8月、20th acm sigkdd international conference on knowledge discovery and data mining 参加報告 0.61
英語(論文から抽出)日本語訳スコア
SocialBERT - Transformers for Online Social Network Language Modelling SocialBERT - オンラインソーシャルネットワーク言語モデリング用トランスフォーマー 0.84
15 12. Aditya Grover and Jure Leskovec. 15 12. アディティア・グローバーとジュア・レスコベツ 0.46
node2vec: Scalable feature learning for networks, node2vec: ネットワークのためのスケーラブルな機能学習 0.74
2016. 13. Ziwei Zhang, Peng Cui, Xiao Wang, Jian Pei, Xuanrong Yao, and Wenwu Zhu. 2016. 13.Ziwei Zhang, Peng Cui, Xiao Wang, Jian Pei, Xuanrong Yao, Wenwu Zhu 0.38
Arbitrary-Order Proximity Preserved Network Embedding, page 2778–2786. Arbitrary-Order Proximity Preserved Network Embedding, page 2778–2786 0.42
Association for Computing Machinery, New York, NY, USA, 2018. Association for Computing Machinery, New York, NY, USA, 2018 (英語) 0.83
14. Jiawei Zhang, Haopeng Zhang, Congying Xia, and Li Sun. 14.jiawei zhang、haopeng zhang、congying xia、li sun。 0.50
Graph-bert: Only Graph-bert: それだけです。 0.47
attention is needed for learning graph representations, 2020. グラフ表現の学習には注意が必要である。 0.68
15. Petar Veliˇckovi´c, Guillem Cucurull, Arantxa Casanova, Adriana Romero, Pietro 15. ペタル・ヴェリシュコヴィ ́c, Guillem Cucurull, Arantxa Casanova, Adriana Romero, Pietro 0.91
Li`o, and Yoshua Bengio. ヨシュア・ベンジオ(Yoshua Bengio)とも。 0.57
Graph attention networks, 2018. グラフアテンションネットワーク、2018年。 0.71
16. Suchin Gururangan, Ana Marasovi´c, Swabha Swayamdipta, Kyle Lo, Iz Beltagy, Doug Downey, and Noah A. Smith. 16.S suchin Gururangan, Ana Marasovi ́c, Swabha Swayamdipta, Kyle Lo, Iz Beltagy, Doug Downey, Noah A. Smith
訳抜け防止モード: 16.S suchin Gururangan, Ana Marasovi ́c, Swabha Swayamdipta, Kyle Lo イズ・ベルタギー、ダグ・ダウニー、ノア・A・スミス。
0.75
Don’t stop pretraining: Adapt language models to domains and tasks. 事前トレーニングを止めるな: 言語モデルをドメインやタスクに適用する。 0.73
2020. 17. Xiaochuang Han and Jacob Eisenstein. 2020. 17. xiaochuang hanとjacob eisenstein。 0.38
Unsupervised domain adaptation of con- con-の教師なしドメイン適応 0.53
textualized embeddings for sequence labeling, 2019. textualized embeddeds for sequence labeling, 2019(英語) 0.80
18. Dani Yogatama, Cyprien de Masson d’Autume, Jerome Connor, Tomas Kocisky, Mike Chrzanowski, Lingpeng Kong, Angeliki Lazaridou, Wang Ling, Lei Yu, Chris Dyer, and Phil Blunsom. 18.Dani Yogatama, Cyprien de Masson d’Autume, Jerome Connor, Tomas Kocisky, Mike Chrzanowski, Lingpeng Kong, Angeliki Lazaridou, Wang Ling, Lei Yu, Chris Dyer, Phil Blunsom
訳抜け防止モード: 18. dani yogatama, cyprien de masson d’autume, jerome connor, tomas kocisky, mike chrzanowski, lingpeng kong, angeliki lazaridou ワン・リン、レイ・ユ、クリス・ダイアー、フィル・ブランソム。
0.63
Learning and evaluating general linguistic intelligence, 2019. 一般言語知能の学習と評価、2019年。 0.71
19. Idriss Mghabbar and Pirashanth Ratnamogan. 19. Idriss Mghabbar と Pirashanth Ratnamogan 0.35
Building a multi-domain neural マルチドメインニューラルネットワークの構築 0.56
machine translation model using knowledge distillation, 2020. 知識蒸留を用いた機械翻訳モデル 2020年 0.80
20. Geoffrey Hinton, Oriol Vinyals, and Jeff Dean. 20. ジェフリー・ヒントン、オリオール・ヴィニールズ、ジェフ・ディーン。 0.59
Distilling the knowledge in a neural 神経に知識を蒸留する. 0.67
network, 2015. 2015年、ネットワーク。 0.88
21. Zhibin Lu, Pan Du, and Jian-Yun Nie. 21. zhibin lu, pan du, jian-yun nie。 0.35
Vgcn-bert: Augmenting bert with graph embedding for text classification. vgcn-bert: テキスト分類のためのグラフ埋め込みによるbertの拡張。 0.60
In Joemon M. Jose, Emine Yilmaz, Jo˜ao Magalh˜aes, Pablo Castells, Nicola Ferro, M´ario J. Silva, and Fl´avio Martins, editors, Advances in Information Retrieval, pages 369–382, Cham, 2020. joemon m. jose, emine yilmaz, jo sao magalh saes, pablo castells, nicola ferro, m ́ario j. silva, and fl ́avio martins, editors, advances in information retrieval, pages 369–382, cham, 2020。
訳抜け防止モード: ジョモン・M・ホセ(Joemon M. Jose)、エミネ・イルマズ(Emine Yilmaz)、ジョ・シャオ・マガレ・シャエス(Jo 'ao Magalh 'aes)、パブロ・カステルズ(Pablo Castells) ニコラ・フェロ、M ́ario J. Silva、Fl ́avio Martins、編集者。 Information Retrieval, page 369–382, Cham, 2020
0.52
Springer International Publishing. Springer International Publishing(英語) 0.71
22. Anne Lauscher, Olga Majewska, Leonardo F. R. Ribeiro, Iryna Gurevych, Nikolai Rozanov, and Goran Glavaˇs. 22. アン・ラウシャー、オルガ・マジェウスカ、レオナルド・F・R・リベイロ、イリナ・グレヴィチ、ニコライ・ロザノフ、ゴラン・グラヴァース。
訳抜け防止モード: 22Anne Lauscher, Olga Majewska, Leonardo F. R. Ribeiro イリナ・グレヴィチ、ニコライ・ロザノフ、ゴラン・グラヴァシュ。
0.66
Common sense or world knowledge? investigating adapter-based knowledge injection into pretrained transformers. 常識か世界知識か? プレトレーニングトランスへのアダプタベースの知識注入の検討。 0.44
In Proceedings of Deep Learning Inside Out (DeeLIO): The First Workshop on Knowledge Extraction and Integration for Deep Learning Architectures, pages 43–49, Online, November 2020. Proceedings of Deep Learning Inside Out (DeeLIO): The First Workshop on Knowledge extract and Integration for Deep Learning Architectures, page 43–49, Online, November 2020。
訳抜け防止モード: in proceedings of deep learning inside out (deelio) : the first workshop on knowledge extraction and integration for deep learning architectures, 43-49頁、オンライン、2020年11月。
0.79
Association for Computational Linguistics. 23. Yuri Kuratov and Mikhail Arkhipov. 計算言語学会会員。 23. ユーリ・クラトフとミハイル・アルキポフ 0.51
Adaptation of deep bidirectional multilingual 深い双方向多言語適応 0.84
transformers for russian language, 2019. 2019年 ロシア語のトランスフォーマー 0.56
                               ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。