論文の概要: LEXpander: applying colexification networks to automated lexicon
expansion
- arxiv url: http://arxiv.org/abs/2205.15850v1
- Date: Tue, 31 May 2022 14:55:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 13:51:48.357330
- Title: LEXpander: applying colexification networks to automated lexicon
expansion
- Title(参考訳): LEXpander: 自動辞書展開にコネクティフィケーションネットワークを適用する
- Authors: Anna Di Natale and David Garcia
- Abstract要約: LEXpander は,新しいコネクティフィケーションデータを活用する辞書拡張手法である。
LEXpanderは,単語リストの精度とリコールのトレードオフの両面から,既存の手法よりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 0.16804697591495946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent approaches to text analysis from social media and other corpora rely
on word lists to detect topics, measure meaning, or to select relevant
documents. These lists are often generated by applying computational lexicon
expansion methods to small, manually-curated sets of root words. Despite the
wide use of this approach, we still lack an exhaustive comparative analysis of
the performance of lexicon expansion methods and how they can be improved with
additional linguistic data. In this work, we present LEXpander, a method for
lexicon expansion that leverages novel data on colexification, i.e. semantic
networks connecting words based on shared concepts and translations to other
languages. We evaluate LEXpander in a benchmark including widely used methods
for lexicon expansion based on various word embedding models and synonym
networks. We find that LEXpander outperforms existing approaches in terms of
both precision and the trade-off between precision and recall of generated word
lists in a variety of tests. Our benchmark includes several linguistic
categories and sentiment variables in English and German. We also show that the
expanded word lists constitute a high-performing text analysis method in
application cases to various corpora. This way, LEXpander poses a systematic
automated solution to expand short lists of words into exhaustive and accurate
word lists that can closely approximate word lists generated by experts in
psychology and linguistics.
- Abstract(参考訳): ソーシャルメディアや他のコーパスからのテキスト分析への最近のアプローチは、トピックの検出、意味の測定、関連する文書の選択にワードリストに依存している。
これらのリストは、計算レキシコン展開法を、手作業で計算された小さなルートワードの集合に適用することによって、しばしば生成される。
このアプローチが広く使われているにもかかわらず、語彙拡張法の性能と、追加の言語データでどのように改善できるかについて、徹底的な比較分析が不足している。
本稿では,共有概念と他言語への翻訳に基づいて単語を接続する意味ネットワークである語彙化に関する新しいデータを活用する,語彙展開の手法であるlexpanderを提案する。
我々は,様々な単語埋め込みモデルと同義語ネットワークに基づく辞書拡張手法を含むベンチマークでLEXpanderを評価した。
LEXpanderは、様々なテストで生成された単語リストの精度とリコールのトレードオフの両面で、既存のアプローチよりも優れていることがわかった。
私たちのベンチマークには、英語とドイツ語のいくつかの言語カテゴリと感情変数が含まれています。
また, 拡張された単語リストは, 各種コーパスへの適用事例における高い性能のテキスト解析手法であることを示す。
このようにして、LEXpanderは、短い単語のリストを、心理学や言語学の専門家が生成した単語リストと密に近似できる、徹底的で正確な単語リストに拡張する、体系的な自動化ソリューションを提供する。
関連論文リスト
- Always Keep your Target in Mind: Studying Semantics and Improving
Performance of Neural Lexical Substitution [124.99894592871385]
本稿では,従来の言語モデルと最近の言語モデルの両方を用いた語彙置換手法の大規模比較研究を行う。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによるすでに競合する結果がさらに大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-06-07T16:16:19Z) - Subword Mapping and Anchoring across Languages [1.9352552677009318]
SMALA (Subword Mapping and Anchoring across Languages) は、バイリンガルなサブワード語彙を構築する方法である。
SMALAは教師なしの最先端マッピング技術を用いてサブワードアライメントを抽出する。
SMALAで獲得した単語語彙は,多くの偽陽性と偽陰性を含む文のBLEUスコアが高くなることを示す。
論文 参考訳(メタデータ) (2021-09-09T20:46:27Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - LexSubCon: Integrating Knowledge from Lexical Resources into Contextual
Embeddings for Lexical Substitution [76.615287796753]
本稿では,コンテキスト埋め込みモデルに基づくエンドツーエンドの語彙置換フレームワークであるLexSubConを紹介する。
これは文脈情報と構造化語彙資源からの知識を組み合わせることで達成される。
我々の実験によると、LexSubConはLS07とCoInCoベンチマークデータセットで従来の最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-11T21:25:56Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - Enhanced word embeddings using multi-semantic representation through
lexical chains [1.8199326045904998]
フレキシブル・レキシカル・チェーンIIと固定レキシカル・チェーンIIという2つの新しいアルゴリズムを提案する。
これらのアルゴリズムは、語彙連鎖から派生した意味関係、語彙データベースからの以前の知識、および単一のシステムを形成するビルディングブロックとしての単語埋め込みにおける分布仮説の堅牢性を組み合わせている。
その結果、語彙チェーンと単語埋め込み表現の統合は、より複雑なシステムに対しても、最先端の結果を維持します。
論文 参考訳(メタデータ) (2021-01-22T09:43:33Z) - Top2Vec: Distributed Representations of Topics [0.0]
トピックモデリングは、文書の大規模なコレクションにおいて潜在意味構造(通常トピックと呼ばれる)を発見するのに使用される。
共同文書と単語セマンティック埋め込みを利用してトピックを検索するtexttttop2vec$を提示する。
実験の結果, $texttttop2vec$ は確率的生成モデルよりも, 学習したコーパスの有意に情報的, 代表的なトピックを見つけることができた。
論文 参考訳(メタデータ) (2020-08-19T20:58:27Z) - Comparative Analysis of Word Embeddings for Capturing Word Similarities [0.0]
分散言語表現は、様々な自然言語処理タスクにおいて、言語表現において最も広く使われている技術となっている。
ディープラーニング技術に基づく自然言語処理モデルのほとんどは、単語埋め込みと呼ばれる、すでに訓練済みの分散単語表現を使用している。
適切な単語の埋め込みを選択することは 複雑な作業です なぜなら、投影された埋め込み空間は 人間にとって直感的ではないからです
論文 参考訳(メタデータ) (2020-05-08T01:16:03Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z) - Language-Independent Tokenisation Rivals Language-Specific Tokenisation
for Word Similarity Prediction [12.376752724719005]
言語に依存しないトークン化(LIT)メソッドはラベル付き言語リソースや語彙を必要としない。
言語固有のトークン化(LST)手法は、長い歴史と確立された歴史を持ち、慎重に作成された語彙とトレーニングリソースを用いて開発されている。
意味的類似度測定を多種多様な言語を対象とした評価課題として用いた2つの手法を実証的に比較した。
論文 参考訳(メタデータ) (2020-02-25T16:24:42Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。