論文の概要: The Shape of Word Embeddings: Recognizing Language Phylogenies through Topological Data Analysis
- arxiv url: http://arxiv.org/abs/2404.00500v1
- Date: Sat, 30 Mar 2024 23:51:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 03:20:34.727301
- Title: The Shape of Word Embeddings: Recognizing Language Phylogenies through Topological Data Analysis
- Title(参考訳): 単語埋め込みの形状:トポロジカルデータ解析による言語系統認識
- Authors: Ondřej Draganov, Steven Skiena,
- Abstract要約: 我々は、トポロジカルデータ解析から永続的ホモロジーを用いて、ラベルなし埋め込みの形状から言語ペア間の距離を測定する。
81のインド・ヨーロッパ語に言語系統樹を構築した。
- 参考スコア(独自算出の注目度): 10.242373477945376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Word embeddings represent language vocabularies as clouds of $d$-dimensional points. We investigate how information is conveyed by the general shape of these clouds, outside of representing the semantic meaning of each token. Specifically, we use the notion of persistent homology from topological data analysis (TDA) to measure the distances between language pairs from the shape of their unlabeled embeddings. We use these distance matrices to construct language phylogenetic trees over 81 Indo-European languages. Careful evaluation shows that our reconstructed trees exhibit strong similarities to the reference tree.
- Abstract(参考訳): 単語埋め込みは、言語語彙を$d$次元の点の雲として表す。
本研究では,各トークンの意味的意味を表わす以外に,これらの雲の一般的な形状によって情報がどのように伝達されるかを検討する。
具体的には、トポロジカルデータ解析(TDA)からの永続的ホモロジーの概念を用いて、ラベルなし埋め込みの形状から言語ペア間の距離を測定する。
これらの距離行列を用いて、81のインド・ヨーロッパ語にまたがる言語系統木を構築する。
注意深い評価の結果,再建された木は基準木と強い類似性を示した。
関連論文リスト
- Geometric Signatures of Compositionality Across a Language Model's Lifetime [47.25475802128033]
構成性は表現の本質的な次元に反映されていることを示す。
また, 構成性と幾何学的複雑性の関係は, 学習した言語的特徴によってもたらされることを示した。
論文 参考訳(メタデータ) (2024-10-02T11:54:06Z) - Evaluating Contextualized Representations of (Spanish) Ambiguous Words: A New Lexical Resource and Empirical Analysis [2.2530496464901106]
スペイン語の単言語モデルと多言語BERTモデルを用いて、文脈におけるスペイン語のあいまいな名詞の意味表現を評価する。
様々な BERT ベースの LM の文脈的意味表現は、人間の判断に多少の違いがあるが、ヒトのベンチマークには及ばない。
論文 参考訳(メタデータ) (2024-06-20T18:58:11Z) - How well do distributed representations convey contextual lexical semantics: a Thesis Proposal [3.3585951129432323]
本稿では,現代ニューラルネットワークによる語彙意味の符号化における分散表現の有効性について検討する。
文脈に影響された意味の関連性と類似性に基づいて,曖昧さの4つの源を同定する。
次に、多言語データセットの収集や構築、様々な言語モデルの利用、言語解析ツールの利用により、これらの情報源を評価することを目的とする。
論文 参考訳(メタデータ) (2024-06-02T14:08:51Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Discrete representations in neural models of spoken language [56.29049879393466]
音声言語の弱教師付きモデルの文脈における4つの一般的なメトリクスの利点を比較した。
異なる評価指標が矛盾する結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2021-05-12T11:02:02Z) - Understanding Synonymous Referring Expressions via Contrastive Features [105.36814858748285]
画像とオブジェクトインスタンスレベルでのコントラスト機能を学ぶためのエンドツーエンドのトレーニング可能なフレームワークを開発しています。
提案アルゴリズムをいくつかのベンチマークデータセットで評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2021-04-20T17:56:24Z) - Linguistic dependencies and statistical dependence [76.89273585568084]
文脈における単語の確率を推定するために,事前学習した言語モデルを用いる。
最大CPMI木は非文脈PMI推定値から抽出した木よりも言語的依存関係によく対応していることがわかった。
論文 参考訳(メタデータ) (2021-04-18T02:43:37Z) - Probing Multilingual BERT for Genetic and Typological Signals [28.360662552057324]
我々は多言語BERT(mBERT)の層を探索し,100言語にわたる系統的および地理的言語信号について検討した。
我々は,言語木を推定・評価するために,言語距離を用い,四重項木距離の点から基準系木に近いことが判明した。
論文 参考訳(メタデータ) (2020-11-04T00:03:04Z) - Bio-inspired Structure Identification in Language Embeddings [3.5292026405502215]
本稿では, バイオインスパイアされた手法を用いて, 単語の埋め込みをトラバースし, 可視化する一連の探索手法を提案する。
本モデルを用いて,単語の埋め込み手法の違いが意味的出力に与える影響について検討する。
論文 参考訳(メタデータ) (2020-09-05T04:44:15Z) - Exploiting Syntactic Structure for Better Language Modeling: A Syntactic
Distance Approach [78.77265671634454]
我々はマルチタスクの目的、すなわち、モデルが単語を同時に予測し、また「シンタクティック距離」と呼ばれる形態で真実解析木を解析する。
Penn Treebank と Chinese Treebank のデータセットによる実験結果から,地上の真理解析木を追加の訓練信号として提供すると,そのモデルはより低いパープレキシティを実現し,より良い品質で木を誘導できることが示された。
論文 参考訳(メタデータ) (2020-05-12T15:35:00Z) - Topological Data Analysis in Text Classification: Extracting Features
with Additive Information [2.1410799064827226]
位相データ解析は高次元数値データに適用することが困難である。
トポロジカルな特徴は、従来のテキストマイニングでは捉えられていない独占的な情報を持っている。
アンサンブルモデルにおける従来の特徴に位相的特徴を加えることで、分類結果が改善される。
論文 参考訳(メタデータ) (2020-03-29T21:02:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。