論文の概要: Evaluating Word Embeddings with Categorical Modularity
- arxiv url: http://arxiv.org/abs/2106.00877v1
- Date: Wed, 2 Jun 2021 01:29:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-04 09:12:01.515264
- Title: Evaluating Word Embeddings with Categorical Modularity
- Title(参考訳): 分類的モジュラリティを用いた単語埋め込みの評価
- Authors: S\'ilvia Casacuberta, Karina Halevy, Dami\'an E. Blasi
- Abstract要約: 単語の埋め込み品質を評価するための新しい低リソース計量である分類的モジュラリティを導入する。
我々は29言語で59の神経生物学的に動機付けられた意味カテゴリーに属する500語のコアセットを使用する。
感情分析と単語類似度計算の単言語的タスクにおいて,分類的モジュラリティと性能との間には,中程度から強い正の相関関係が認められた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce categorical modularity, a novel low-resource intrinsic metric to
evaluate word embedding quality. Categorical modularity is a graph modularity
metric based on the $k$-nearest neighbor graph constructed with embedding
vectors of words from a fixed set of semantic categories, in which the goal is
to measure the proportion of words that have nearest neighbors within the same
categories. We use a core set of 500 words belonging to 59 neurobiologically
motivated semantic categories in 29 languages and analyze three word embedding
models per language (FastText, MUSE, and subs2vec). We find moderate to strong
positive correlations between categorical modularity and performance on the
monolingual tasks of sentiment analysis and word similarity calculation and on
the cross-lingual task of bilingual lexicon induction both to and from English.
Overall, we suggest that categorical modularity provides non-trivial predictive
information about downstream task performance, with breakdowns of correlations
by model suggesting some meta-predictive properties about semantic information
loss as well.
- Abstract(参考訳): 単語埋め込み品質を評価するために,新しい低リソース内在指標である分類的モジュラリティを導入する。
カテゴリーモジュラリティ(英: Categorical modularity)とは、ある固定された意味圏の集合から単語のベクトルを埋め込んだ$k$-nearest(英語版)近傍グラフに基づくグラフモジュラリティの計量である。
我々は29言語で59の神経生物学的に動機付けられた意味カテゴリーに属する500語のコアセットを使用し、言語ごとの3つの単語埋め込みモデル(FastText, MUSE, subs2vec)を分析した。
感情分析と単語類似性計算の単言語的タスク,およびバイリンガル語彙誘導の両言語間タスクにおいて,カテゴリー的モジュラリティと性能との間には,中程度の正の相関関係が認められた。
全体として、分類モジュラリティは、下流タスクのパフォーマンスに関する非自明な予測情報を提供し、セマンティック情報損失に関するメタ予測特性のモデルによる相関関係の分解も提案する。
関連論文リスト
- Investigating Idiomaticity in Word Representations [9.208145117062339]
我々は2つの言語(英語とポルトガル語)における様々な水準の慣用性を持つ名詞に焦点をあてる。
そこで本研究では,各名詞の音韻性判定を含む最小対のデータセットについて,タイプレベルとトークンレベルの両方で示す。
AffinityとScaled similarityの詳細なメトリクスセットを定義し、モデルが慣用性の変化につながる可能性のある摂動に対してどれほど敏感であるかを判断する。
論文 参考訳(メタデータ) (2024-11-04T21:05:01Z) - Domain Embeddings for Generating Complex Descriptions of Concepts in
Italian Language [65.268245109828]
電子辞書から抽出した言語情報と語彙情報に富んだ分布意味資源を提案する。
リソースは21のドメイン固有の行列と1つの包括的なマトリックスとグラフィカルユーザインタフェースから構成される。
本モデルは,具体的概念知識に直接関連した行列を選択することにより,概念の意味的記述の推論を容易にする。
論文 参考訳(メタデータ) (2024-02-26T15:04:35Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Topics in the Haystack: Extracting and Evaluating Topics beyond
Coherence [0.0]
本稿では,文と文書のテーマを深く理解する手法を提案する。
これにより、一般的な単語やネオロジズムを含む潜在トピックを検出することができる。
本稿では, 侵入者の単語の人間識別と相関係数を示し, 単語侵入作業において, ほぼ人間レベルの結果を得る。
論文 参考訳(メタデータ) (2023-03-30T12:24:25Z) - A Comprehensive Empirical Evaluation of Existing Word Embedding
Approaches [5.065947993017158]
既存の単語埋め込み手法の特徴を概説し,多くの分類タスクについて解析する。
伝統的なアプローチでは、主に単語表現を生成するために行列分解を使い、言語の意味的および構文的規則性をうまく捉えることができない。
一方、ニューラルネットワークに基づくアプローチは、言語の洗練された規則性を捕捉し、生成した単語表現における単語関係を保存することができる。
論文 参考訳(メタデータ) (2023-03-13T15:34:19Z) - Variational Cross-Graph Reasoning and Adaptive Structured Semantics
Learning for Compositional Temporal Grounding [143.5927158318524]
テンポラルグラウンドティング(Temporal grounding)とは、クエリ文に従って、未編集のビデオから特定のセグメントを特定するタスクである。
新たに構成時間グラウンドタスクを導入し,2つの新しいデータセット分割を構築した。
ビデオや言語に内在する構造的意味論は、構成的一般化を実現する上で重要な要素である、と我々は主張する。
論文 参考訳(メタデータ) (2023-01-22T08:02:23Z) - Compositional Generalization in Grounded Language Learning via Induced
Model Sparsity [81.38804205212425]
グリッド環境における単純な言語条件のナビゲーション問題について考察する。
本研究では,オブジェクトの指示文と属性のスパース相関を助長するエージェントを設計し,それらを組み合わせて目的を導出する。
我々のエージェントは、少数のデモンストレーションから学習した場合でも、新しいプロパティの組み合わせを含む目標に対して高いレベルのパフォーマンスを維持している。
論文 参考訳(メタデータ) (2022-07-06T08:46:27Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Decomposing lexical and compositional syntax and semantics with deep
language models [82.81964713263483]
GPT2のような言語変換器の活性化は、音声理解中の脳活動に線形にマップすることが示されている。
本稿では,言語モデルの高次元アクティベーションを,語彙,構成,構文,意味表現の4つのクラスに分類する分類法を提案する。
その結果は2つの結果が浮かび上がった。
まず、構成表現は、語彙よりも広範な皮質ネットワークを募集し、両側の側頭、頭頂、前頭前皮質を包含する。
論文 参考訳(メタデータ) (2021-03-02T10:24:05Z) - Enhanced word embeddings using multi-semantic representation through
lexical chains [1.8199326045904998]
フレキシブル・レキシカル・チェーンIIと固定レキシカル・チェーンIIという2つの新しいアルゴリズムを提案する。
これらのアルゴリズムは、語彙連鎖から派生した意味関係、語彙データベースからの以前の知識、および単一のシステムを形成するビルディングブロックとしての単語埋め込みにおける分布仮説の堅牢性を組み合わせている。
その結果、語彙チェーンと単語埋め込み表現の統合は、より複雑なシステムに対しても、最先端の結果を維持します。
論文 参考訳(メタデータ) (2021-01-22T09:43:33Z) - On the Importance of Word and Sentence Representation Learning in
Implicit Discourse Relation Classification [43.483855615908695]
暗黙の談話関係分類は、浅い談話解析において最も難しい部分の1つである。
暗黙的な談話分析には,強力な文脈表現モジュール,二元多視点マッチングモジュール,大域情報融合モジュールが重要であると論じる。
論文 参考訳(メタデータ) (2020-04-27T07:41:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。