論文の概要: Compass-aligned Distributional Embeddings for Studying Semantic
Differences across Corpora
- arxiv url: http://arxiv.org/abs/2004.06519v1
- Date: Mon, 13 Apr 2020 15:46:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 23:07:34.840998
- Title: Compass-aligned Distributional Embeddings for Studying Semantic
Differences across Corpora
- Title(参考訳): コーパス間の意味的差異を研究するためのコンパスアライメント分布埋め込み
- Authors: Federico Bianchi and Valerio Di Carlo and Paolo Nicoli and Matteo
Palmonari
- Abstract要約: 単語埋め込みを用いたクロスコーパス言語研究を支援するフレームワークを提案する。
CADEは私たちのフレームワークの中核的なコンポーネントであり、異なるコーパスから生成された埋め込みを整合させるという重要な問題を解決する。
実験の結果, CADEは, 競合するアプローチがいくつかあるタスクにおいて, 最先端あるいは優れた性能を達成できることが示唆された。
- 参考スコア(独自算出の注目度): 14.993021283916008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Word2vec is one of the most used algorithms to generate word embeddings
because of a good mix of efficiency, quality of the generated representations
and cognitive grounding. However, word meaning is not static and depends on the
context in which words are used. Differences in word meaning that depends on
time, location, topic, and other factors, can be studied by analyzing
embeddings generated from different corpora in collections that are
representative of these factors. For example, language evolution can be studied
using a collection of news articles published in different time periods. In
this paper, we present a general framework to support cross-corpora language
studies with word embeddings, where embeddings generated from different corpora
can be compared to find correspondences and differences in meaning across the
corpora. CADE is the core component of our framework and solves the key problem
of aligning the embeddings generated from different corpora. In particular, we
focus on providing solid evidence about the effectiveness, generality, and
robustness of CADE. To this end, we conduct quantitative and qualitative
experiments in different domains, from temporal word embeddings to language
localization and topical analysis. The results of our experiments suggest that
CADE achieves state-of-the-art or superior performance on tasks where several
competing approaches are available, yet providing a general method that can be
used in a variety of domains. Finally, our experiments shed light on the
conditions under which the alignment is reliable, which substantially depends
on the degree of cross-corpora vocabulary overlap.
- Abstract(参考訳): Word2vecは、効率性、生成した表現の質、認識基盤の良さから、単語埋め込みを生成する最もよく使われるアルゴリズムの1つである。
しかし、単語の意味は静的ではなく、言葉が使われる文脈に依存している。
時間, 場所, 話題, その他の要因に依存する単語の意味の相違は, 異なるコーパスから生成された埋め込みをこれらの要因を表すコレクションに解析することによって研究することができる。
例えば、言語進化は、異なる期間に発行されたニュース記事のコレクションを使用して研究することができる。
本稿では,異なるコーパスから生成された埋め込みを比較し,コーパス間の対応や意味の相違を見出すことができる,単語埋め込みを用いたクロスコーポラ言語研究を支援する汎用フレームワークを提案する。
CADEは私たちのフレームワークの中核的なコンポーネントであり、異なるコーパスから生成された埋め込みを整列する重要な問題を解決する。
特に,CADEの有効性,汎用性,堅牢性に関する確固たる証拠の提供に重点を置いている。
この目的のために, 時間的単語埋め込みから言語定位, 話題分析まで, 異なる領域で定量的・質的実験を行う。
実験の結果、cadeはいくつかの競合するアプローチが利用可能なタスクにおいて最先端または優れた性能を達成できるが、様々なドメインで使用できる一般的なメソッドを提供することが示唆された。
最後に、我々の実験は、コーパスの語彙重なりの程度に大きく依存するアライメントが信頼できる条件に光を当てた。
関連論文リスト
- How Do Transformers Learn Topic Structure: Towards a Mechanistic
Understanding [56.222097640468306]
我々は、トランスフォーマーが「意味構造」を学ぶ方法の機械的理解を提供する
数学的解析とウィキペディアデータの実験を組み合わせることで、埋め込み層と自己保持層がトピック構造をエンコードしていることを示す。
論文 参考訳(メタデータ) (2023-03-07T21:42:17Z) - Keywords and Instances: A Hierarchical Contrastive Learning Framework
Unifying Hybrid Granularities for Text Generation [59.01297461453444]
入力テキスト中のハイブリッドな粒度意味を統一する階層的コントラスト学習機構を提案する。
実験により,本モデルがパラフレージング,対話生成,ストーリーテリングタスクにおいて,競争ベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2022-05-26T13:26:03Z) - Human-in-the-Loop Refinement of Word Embeddings [0.0]
単語埋め込み後処理の適応を組み込んだシステムを提案する。
我々のアプローチは、人間が対話的に単語の埋め込みによって潜在的な品質問題を特定し、対処することを可能にする。
また、単語の埋め込み、単語の埋め込みに対する改善が機械学習パイプラインに与える影響について、より深い洞察を与えることができる。
論文 参考訳(メタデータ) (2021-10-06T16:10:32Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - On the Impact of Knowledge-based Linguistic Annotations in the Quality
of Scientific Embeddings [0.0]
我々は, 科学的コーパスから埋め込みを生成するために, 明示的な言語アノテーションを用いた研究を行う。
以上の結果から,組込みにおけるアノテーションの効果は評価作業によってどのように変化するかを示す。
一般に,言語アノテーションを用いた埋め込み学習が,より良い評価結果の獲得に寄与すると考えられる。
論文 参考訳(メタデータ) (2021-04-13T13:51:22Z) - EDS-MEMBED: Multi-sense embeddings based on enhanced distributional
semantic structures via a graph walk over word senses [0.0]
WordNetの豊富なセマンティック構造を活用して、マルチセンス埋め込みの品質を高めます。
M-SEの新たな分布意味類似度測定法を先行して導出する。
WSDとWordの類似度タスクを含む11のベンチマークデータセットの評価結果を報告します。
論文 参考訳(メタデータ) (2021-02-27T14:36:55Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - Blind signal decomposition of various word embeddings based on join and
individual variance explained [11.542392473831672]
そこで本稿では,JIVEとJIVEを併用して,各種単語の組込みを結合成分と個別成分に分解する,新しい結合信号分離手法を提案する。
我々は,2vec,FastText,GLoVEの異なるコーパスと異なる次元で訓練を行った。
その結果,異なる単語の埋め込みを結合成分にマッピングすることにより,従来の単語埋め込みよりも低性能で感情性能が大幅に向上できることが判明した。
論文 参考訳(メタデータ) (2020-11-30T01:36:29Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - Comparative Analysis of Word Embeddings for Capturing Word Similarities [0.0]
分散言語表現は、様々な自然言語処理タスクにおいて、言語表現において最も広く使われている技術となっている。
ディープラーニング技術に基づく自然言語処理モデルのほとんどは、単語埋め込みと呼ばれる、すでに訓練済みの分散単語表現を使用している。
適切な単語の埋め込みを選択することは 複雑な作業です なぜなら、投影された埋め込み空間は 人間にとって直感的ではないからです
論文 参考訳(メタデータ) (2020-05-08T01:16:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。