論文の概要: Learning language variations in news corpora through differential
embeddings
- arxiv url: http://arxiv.org/abs/2011.06949v1
- Date: Fri, 13 Nov 2020 14:50:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 23:26:25.768934
- Title: Learning language variations in news corpora through differential
embeddings
- Title(参考訳): 差分埋め込みによるニュースコーパスにおける言語変化の学習
- Authors: Carlos Selmo, Julian F. Martinez, Mariano G. Beir\'o and J. Ignacio
Alvarez-Hamelin
- Abstract要約: 中心的な単語表現とスライスに依存したコントリビューションを持つモデルでは,異なるコーパスから単語埋め込みを同時に学習できることを示す。
各コーパスの年次スライスにおける時間的ダイナミクスと、米国英語と英国英語の言語変化をキュレートしたマルチソースコーパスで捉えることができることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: There is an increasing interest in the NLP community in capturing variations
in the usage of language, either through time (i.e., semantic drift), across
regions (as dialects or variants) or in different social contexts (i.e.,
professional or media technolects). Several successful dynamical embeddings
have been proposed that can track semantic change through time. Here we show
that a model with a central word representation and a slice-dependent
contribution can learn word embeddings from different corpora simultaneously.
This model is based on a star-like representation of the slices. We apply it to
The New York Times and The Guardian newspapers, and we show that it can capture
both temporal dynamics in the yearly slices of each corpus, and language
variations between US and UK English in a curated multi-source corpus. We
provide an extensive evaluation of this methodology.
- Abstract(参考訳): NLPコミュニティは、言語の使用のバリエーション(すなわち、時間(意味的ドリフト)、地域(方言や変種)、あるいは異なる社会的文脈(専門的またはメディア技術)において、言語の使用の変化を捉えることへの関心が高まっている。
時間を通じて意味の変化を追跡できるいくつかの動的埋め込みが提案されている。
ここでは,中央の単語表現とスライス依存の寄与を持つモデルが,異なるコーパスから単語埋め込みを同時に学習できることを示す。
このモデルは、星のようなスライス表現に基づいている。
ニューヨーク・タイムズ』紙と『ガーディアン』紙に応用し、各コーパスの年次スライスにおける時間的ダイナミクスと、キュレートされた複数ソースコーパスで米国と英国英語の言語変化の両方を捉えることができることを示した。
我々はこの方法論を広く評価する。
関連論文リスト
- Exploring Anisotropy and Outliers in Multilingual Language Models for
Cross-Lingual Semantic Sentence Similarity [64.18762301574954]
これまでの研究によると、文脈言語モデルによって出力される表現は静的な型埋め込みよりも異方性が高い。
これは単言語モデルと多言語モデルの両方に当てはまるように思われるが、多言語コンテキストでの作業はあまり行われていない。
複数の事前訓練された多言語言語モデルにおける外乱次元とその異方性との関係について検討する。
論文 参考訳(メタデータ) (2023-06-01T09:01:48Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Temporal Analysis on Topics Using Word2Vec [0.0]
本研究では,トレンド検出と可視化の新しい手法を提案する。具体的には,話題の変化を時間とともにモデル化する。
この手法は、20のNews Groupsデータセットに存在する様々なメディアハウスの記事群でテストされた。
論文 参考訳(メタデータ) (2022-09-23T16:51:29Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - LTIatCMU at SemEval-2020 Task 11: Incorporating Multi-Level Features for
Multi-Granular Propaganda Span Identification [70.1903083747775]
本稿では,新聞記事におけるプロパガンダ・スパン識別の課題について述べる。
本稿では,BERT-BiLSTMに基づくプロパガンダ分類モデルを提案する。
論文 参考訳(メタデータ) (2020-08-11T16:14:47Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z) - Compass-aligned Distributional Embeddings for Studying Semantic
Differences across Corpora [14.993021283916008]
単語埋め込みを用いたクロスコーパス言語研究を支援するフレームワークを提案する。
CADEは私たちのフレームワークの中核的なコンポーネントであり、異なるコーパスから生成された埋め込みを整合させるという重要な問題を解決する。
実験の結果, CADEは, 競合するアプローチがいくつかあるタスクにおいて, 最先端あるいは優れた性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2020-04-13T15:46:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。