論文の概要: Simple, Interpretable and Stable Method for Detecting Words with Usage
Change across Corpora
- arxiv url: http://arxiv.org/abs/2112.14330v1
- Date: Tue, 28 Dec 2021 23:46:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-31 00:23:33.400467
- Title: Simple, Interpretable and Stable Method for Detecting Words with Usage
Change across Corpora
- Title(参考訳): コーパス間の使用変化による単語の簡易, 解釈可能, 安定検出法
- Authors: Hila Gonen, Ganesh Jawahar, Djam\'e Seddah, Yoav Goldberg
- Abstract要約: 2つの文体を比較し、その用法が異なる単語を探すという問題は、しばしばデジタル人文科学や計算社会科学において生じる。
これは一般に、各コーパスに単語の埋め込みを訓練し、ベクトル空間を整列させ、整列空間における余弦距離が大きい単語を探すことでアプローチされる。
本稿では,ベクトル空間アライメントを使わず,各単語の近傍を考慮した代替手法を提案する。
- 参考スコア(独自算出の注目度): 54.757845511368814
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The problem of comparing two bodies of text and searching for words that
differ in their usage between them arises often in digital humanities and
computational social science. This is commonly approached by training word
embeddings on each corpus, aligning the vector spaces, and looking for words
whose cosine distance in the aligned space is large. However, these methods
often require extensive filtering of the vocabulary to perform well, and - as
we show in this work - result in unstable, and hence less reliable, results. We
propose an alternative approach that does not use vector space alignment, and
instead considers the neighbors of each word. The method is simple,
interpretable and stable. We demonstrate its effectiveness in 9 different
setups, considering different corpus splitting criteria (age, gender and
profession of tweet authors, time of tweet) and different languages (English,
French and Hebrew).
- Abstract(参考訳): 2つの文体を比較してそれらの用法が異なる単語を探すという問題は、しばしばデジタル人文科学や計算社会科学において生じる。
これは一般に、各コーパスに単語の埋め込みを訓練し、ベクトル空間を整列させ、整列空間における余弦距離が大きい単語を探すことでアプローチされる。
しかし、これらの手法はよく機能するために語彙を広範囲にフィルタリングする必要があることが多く、この研究で示されているように、不安定で信頼性の低い結果をもたらす。
本稿では,ベクトル空間アライメントを使わず,各単語の近傍を考慮した代替手法を提案する。
この方法は単純で解釈可能で安定している。
コーパス分割基準(年齢、性別、職業、ツイート作成者、ツイート時間)と異なる言語(英語、フランス語、ヘブライ語)を考慮して、9つの異なる設定でその効果を実証した。
関連論文リスト
- Unsupervised extraction of local and global keywords from a single text [0.0]
テキストからキーワードを抽出する非教師付きコーパス非依存手法を提案する。
それは、単語の空間分布と、単語のランダムな置換に対するこの分布の応答に基づいている。
論文 参考訳(メタデータ) (2023-07-26T07:36:25Z) - Contextualized Word Vector-based Methods for Discovering Semantic
Differences with No Training nor Word Alignment [17.229611956178818]
2つのコーパスに現れる単語の意味的差異を検出する手法を提案する。
キーとなる考え方は、意味のカバレッジはその平均語ベクトルのノルムに反映されるということである。
これらの利点は、原住民や非先住民のイングランドのコーパスや、歴史的コーパスにも見られる。
論文 参考訳(メタデータ) (2023-05-19T08:27:17Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Wasserstein Distance Regularized Sequence Representation for Text
Matching in Asymmetrical Domains [51.91456788949489]
WD-Matchと呼ばれる非対称領域におけるテキストマッチングに適した新しいマッチング手法を提案する。
WD-Matchでは、ワッサーシュタイン距離に基づく正規化器が定義され、異なる領域から投影される特徴ベクトルを正規化する。
WD-Matchのトレーニングプロセスは、ワッサースタイン距離によって正規化されるマッチング損失を最小限に抑えるゲームに相当する。
論文 参考訳(メタデータ) (2020-10-15T12:52:09Z) - Comparative Analysis of Word Embeddings for Capturing Word Similarities [0.0]
分散言語表現は、様々な自然言語処理タスクにおいて、言語表現において最も広く使われている技術となっている。
ディープラーニング技術に基づく自然言語処理モデルのほとんどは、単語埋め込みと呼ばれる、すでに訓練済みの分散単語表現を使用している。
適切な単語の埋め込みを選択することは 複雑な作業です なぜなら、投影された埋め込み空間は 人間にとって直感的ではないからです
論文 参考訳(メタデータ) (2020-05-08T01:16:03Z) - Word Rotator's Distance [50.67809662270474]
テキスト類似性を評価する上での鍵となる原則は、単語のアライメントを考慮した2つのテキスト間の意味的重複度を測定することである。
単語ベクトルのノルムは単語の重要度によいプロキシであり、その角度は単語類似度によいプロキシであることを示す。
本稿では,まず単語ベクトルをノルムと方向に分解し,アライメントに基づく類似性を計算する手法を提案する。
論文 参考訳(メタデータ) (2020-04-30T17:48:42Z) - Humpty Dumpty: Controlling Word Meanings via Corpus Poisoning [29.181547214915238]
埋め込み空間における単語の位置を変更することで、攻撃者が新しい単語や既存の単語の「意味」を制御できることが示される。
埋め込みに対する攻撃は、さまざまな下流タスクに影響を与える可能性がある。
論文 参考訳(メタデータ) (2020-01-14T17:48:52Z) - Robust Cross-lingual Embeddings from Parallel Sentences [65.85468628136927]
本稿では,文整合コーパスを利用して頑健な言語間単語表現を実現するCBOW手法のバイリンガル拡張を提案する。
提案手法は,他のすべての手法と比較して,言語間文検索性能を著しく向上させる。
また、ゼロショットのクロスランガル文書分類タスクにおいて、ディープRNN法と同等性を実現する。
論文 参考訳(メタデータ) (2019-12-28T16:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。