論文の概要: The Shape of Word Embeddings: Quantifying Non-Isometry With Topological Data Analysis
- arxiv url: http://arxiv.org/abs/2404.00500v2
- Date: Mon, 11 Nov 2024 09:51:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:04:10.917373
- Title: The Shape of Word Embeddings: Quantifying Non-Isometry With Topological Data Analysis
- Title(参考訳): 単語埋め込みの形状:トポロジカルデータ解析による非イソメトリーの定量化
- Authors: Ondřej Draganov, Steven Skiena,
- Abstract要約: 我々は、トポロジカルデータ解析から永続的ホモロジーを用いて、ラベルなし埋め込みの形状から言語ペア間の距離を測定する。
これらの違いが無作為な訓練誤りなのか、それとも言語に関する実情報なのかを識別するために、計算された距離行列を用いて81のインド・ヨーロッパ語に言語系統木を構築する。
- 参考スコア(独自算出の注目度): 10.242373477945376
- License:
- Abstract: Word embeddings represent language vocabularies as clouds of $d$-dimensional points. We investigate how information is conveyed by the general shape of these clouds, instead of representing the semantic meaning of each token. Specifically, we use the notion of persistent homology from topological data analysis (TDA) to measure the distances between language pairs from the shape of their unlabeled embeddings. These distances quantify the degree of non-isometry of the embeddings. To distinguish whether these differences are random training errors or capture real information about the languages, we use the computed distance matrices to construct language phylogenetic trees over 81 Indo-European languages. Careful evaluation shows that our reconstructed trees exhibit strong and statistically-significant similarities to the reference.
- Abstract(参考訳): 単語埋め込みは、言語語彙を$d$次元の点の雲として表す。
それぞれのトークンの意味を表現せずに,これらの雲の一般的な形状によって情報がどのように伝達されるかを検討する。
具体的には、トポロジカルデータ解析(TDA)からの永続的ホモロジーの概念を用いて、ラベルなし埋め込みの形状から言語ペア間の距離を測定する。
これらの距離は埋め込みの非等距離の度合いを定量化する。
これらの違いが無作為な訓練誤りなのか、それとも言語に関する実情報なのかを識別するために、計算された距離行列を用いて81のインド・ヨーロッパ語に言語系統木を構築する。
注意深い評価は, 再建された樹木は, 基準と強く, 統計的に類似していることを示している。
関連論文リスト
- UCxn: Typologically Informed Annotation of Constructions Atop Universal Dependencies [40.202120178465]
いくつかの形態素的要素の特定の組み合わせを通して意味を伝える文法的構成は、ホモロジー的にラベル付けされない。
我々は,このような意味を持つ文法的構成のために,'UCxn'アノテーション層でUDアノテーションを拡張することを主張する。
ケーススタディでは, 形態素パターンを用いて, UDツリーバンクにおける構築の事例を識別し, 10言語で5つの建設ファミリを考察する。
論文 参考訳(メタデータ) (2024-03-26T14:40:10Z) - Domain Embeddings for Generating Complex Descriptions of Concepts in
Italian Language [65.268245109828]
電子辞書から抽出した言語情報と語彙情報に富んだ分布意味資源を提案する。
リソースは21のドメイン固有の行列と1つの包括的なマトリックスとグラフィカルユーザインタフェースから構成される。
本モデルは,具体的概念知識に直接関連した行列を選択することにより,概念の意味的記述の推論を容易にする。
論文 参考訳(メタデータ) (2024-02-26T15:04:35Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Low-Dimensional Structure in the Space of Language Representations is
Reflected in Brain Responses [62.197912623223964]
言語モデルと翻訳モデルは,単語の埋め込み,構文的・意味的タスク,将来的な単語埋め込みとの間を円滑に介在する低次元構造を示す。
この表現埋め込みは、各特徴空間が、fMRIを用いて記録された自然言語刺激に対する人間の脳反応にどれだけうまく対応しているかを予測することができる。
これは、埋め込みが脳の自然言語表現構造の一部を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-06-09T22:59:12Z) - Understanding Synonymous Referring Expressions via Contrastive Features [105.36814858748285]
画像とオブジェクトインスタンスレベルでのコントラスト機能を学ぶためのエンドツーエンドのトレーニング可能なフレームワークを開発しています。
提案アルゴリズムをいくつかのベンチマークデータセットで評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2021-04-20T17:56:24Z) - Probing Multilingual BERT for Genetic and Typological Signals [28.360662552057324]
我々は多言語BERT(mBERT)の層を探索し,100言語にわたる系統的および地理的言語信号について検討した。
我々は,言語木を推定・評価するために,言語距離を用い,四重項木距離の点から基準系木に近いことが判明した。
論文 参考訳(メタデータ) (2020-11-04T00:03:04Z) - Bio-inspired Structure Identification in Language Embeddings [3.5292026405502215]
本稿では, バイオインスパイアされた手法を用いて, 単語の埋め込みをトラバースし, 可視化する一連の探索手法を提案する。
本モデルを用いて,単語の埋め込み手法の違いが意味的出力に与える影響について検討する。
論文 参考訳(メタデータ) (2020-09-05T04:44:15Z) - Constructing a Family Tree of Ten Indo-European Languages with
Delexicalized Cross-linguistic Transfer Patterns [57.86480614673034]
我々は,デレクシカル化転送を,解釈可能なツリー・ツー・ストリングパターンとツリー・ツー・ツリーパターンとして定式化する。
これにより、言語間移動を定量的に探索し、第二言語習得の問い合わせを拡張することができる。
論文 参考訳(メタデータ) (2020-07-17T15:56:54Z) - Exploiting Syntactic Structure for Better Language Modeling: A Syntactic
Distance Approach [78.77265671634454]
我々はマルチタスクの目的、すなわち、モデルが単語を同時に予測し、また「シンタクティック距離」と呼ばれる形態で真実解析木を解析する。
Penn Treebank と Chinese Treebank のデータセットによる実験結果から,地上の真理解析木を追加の訓練信号として提供すると,そのモデルはより低いパープレキシティを実現し,より良い品質で木を誘導できることが示された。
論文 参考訳(メタデータ) (2020-05-12T15:35:00Z) - Topological Data Analysis in Text Classification: Extracting Features
with Additive Information [2.1410799064827226]
位相データ解析は高次元数値データに適用することが困難である。
トポロジカルな特徴は、従来のテキストマイニングでは捉えられていない独占的な情報を持っている。
アンサンブルモデルにおける従来の特徴に位相的特徴を加えることで、分類結果が改善される。
論文 参考訳(メタデータ) (2020-03-29T21:02:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。