論文の概要: Shape of Elephant: Study of Macro Properties of Word Embeddings Spaces
- arxiv url: http://arxiv.org/abs/2106.06964v1
- Date: Sun, 13 Jun 2021 11:19:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-16 12:43:27.812151
- Title: Shape of Elephant: Study of Macro Properties of Word Embeddings Spaces
- Title(参考訳): エレファントの形状:単語埋め込み空間のマクロ特性に関する研究
- Authors: Alexey Tikhonov
- Abstract要約: 雲を埋め込む典型的な単語は、解釈可能な頂点を持つ高次元の単純体であることを示す。
提案手法は,GloVe空間と高速テキスト空間の単純な頂点を検出・記述できることを示す。
- 参考スコア(独自算出の注目度): 0.20305676256390934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained word representations became a key component in many NLP tasks.
However, the global geometry of the word embeddings remains poorly understood.
In this paper, we demonstrate that a typical word embeddings cloud is shaped as
a high-dimensional simplex with interpretable vertices and propose a simple yet
effective method for enumeration of these vertices. We show that the proposed
method can detect and describe vertices of the simplex for GloVe and fasttext
spaces.
- Abstract(参考訳): 事前訓練された単語表現は多くのNLPタスクにおいて重要な要素となった。
しかし、この単語のグローバルな幾何学はいまだに理解されていない。
本稿では,標準的な単語埋め込みクラウドが,解釈可能な頂点を持つ高次元単純体として形成されていることを実証し,それらの頂点を列挙する簡単な方法を提案する。
提案手法は,GloVe空間と高速テキスト空間の単純な頂点を検出・記述できることを示す。
関連論文リスト
- Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Representation Of Lexical Stylistic Features In Language Models'
Embedding Space [28.60690854046176]
これらのスタイリスティックな概念のそれぞれに対して,少数のシードペアのみからベクトル表現を導出できることが示されている。
5つのデータセットで実験を行い、静的な埋め込みがこれらの特徴を単語やフレーズのレベルでより正確にエンコードすることを発見した。
単語レベルでの文脈化表現の低い性能は、ベクトル空間の異方性に起因する。
論文 参考訳(メタデータ) (2023-05-29T23:44:26Z) - Conjunct Resolution in the Face of Verbal Omissions [51.220650412095665]
本稿では,テキスト上で直接動作する接続分解タスクを提案し,コーディネーション構造に欠けている要素を復元するために,分割・言い換えパラダイムを利用する。
クラウドソースアノテーションによる自然に発生する動詞の省略例を10万件以上を含む,大規模なデータセットをキュレートする。
我々は、このタスクのために様々な神経ベースラインをトレーニングし、最良の手法が適切なパフォーマンスを得る一方で、改善のための十分なスペースを残していることを示す。
論文 参考訳(メタデータ) (2023-05-26T08:44:02Z) - Towards Implicit Text-Guided 3D Shape Generation [81.22491096132507]
本研究は,テキストから3次元形状を生成するという課題について考察する。
テキスト記述にマッチする色で高忠実な形状を生成できるテキスト誘導型3次元形状生成のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-03-28T10:20:03Z) - ME-PCN: Point Completion Conditioned on Mask Emptiness [50.414383063838336]
メインストリーム法は入力点クラウドから学んだグローバルな特徴を復号することで、欠落した形状を予測する。
本稿では,3次元形状空間における空度を利用した点完備ネットワークME-PCNを提案する。
論文 参考訳(メタデータ) (2021-08-18T15:02:27Z) - Word2Box: Learning Word Representation Using Box Embeddings [28.080105878687185]
単語のベクトル表現を学習することは、NLPにおける最も基本的なトピックの1つである。
我々のモデルであるWord2Boxは、単語表現の問題に対する領域ベースアプローチを採用し、単語を$n$次元長方形として表現する。
様々な単語類似性タスク、特にあまり一般的でない単語の性能向上を実証した。
論文 参考訳(メタデータ) (2021-06-28T01:17:11Z) - Deriving Word Vectors from Contextualized Language Models using
Topic-Aware Mention Selection [46.97185212695267]
本稿では,この基本戦略に従って単語表現を学習する手法を提案する。
我々は、文脈を符号化するワードベクトルの袋ではなく、文脈化された言語モデル(CLM)を利用する。
この単純な戦略は、単語埋め込みや既存のCLMベースの戦略よりも意味的特性をより予測し、高品質な単語ベクトルに繋がることを示す。
論文 参考訳(メタデータ) (2021-06-15T08:02:42Z) - Accurate Word Representations with Universal Visual Guidance [55.71425503859685]
本稿では,視覚指導から従来の単語埋め込みを視覚的に強調する視覚的表現法を提案する。
各単語が多様な関連画像に対応するマルチモーダルシードデータセットから,小型の単語画像辞書を構築する。
12の自然言語理解および機械翻訳タスクの実験により,提案手法の有効性と一般化能力がさらに検証された。
論文 参考訳(メタデータ) (2020-12-30T09:11:50Z) - PBoS: Probabilistic Bag-of-Subwords for Generalizing Word Embedding [16.531103175919924]
単語の埋め込みを一般化する作業について検討する。
有限語彙上の事前訓練された単語ベクトルの集合が与えられた場合、その目標は語彙外単語に対する埋め込みベクトルを予測することである。
サブワードセグメント化を同時にモデル化し,サブワードをベースとした合成単語の埋め込みを計算できるモデルを提案する。
論文 参考訳(メタデータ) (2020-10-21T08:11:08Z) - Embedding Words in Non-Vector Space with Unsupervised Graph Learning [33.51809615505692]
GraphGlove: エンドツーエンドで学習される教師なしグラフワード表現について紹介する。
我々の設定では、各単語は重み付きグラフのノードであり、単語間の距離は対応するノード間の最短経路距離である。
グラフに基づく表現は、単語類似性や類似性タスクにおいて、ベクターベースの手法よりもかなり優れていることを示す。
論文 参考訳(メタデータ) (2020-10-06T10:17:49Z) - Word Embeddings: A Survey [1.2691047660244335]
この研究は、単語の固定長、密度、分散表現を構築するための最近の主要な戦略をリストし、記述する。
これらの表現は、現在ではワード埋め込みと呼ばれており、驚くほど優れた構文情報や意味情報を符号化することに加えて、多くの下流のNLPタスクで有用であることが証明されている。
論文 参考訳(メタデータ) (2019-01-25T20:31:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。