論文の概要: Towards a Theoretical Understanding of Word and Relation Representation
- arxiv url: http://arxiv.org/abs/2202.00486v1
- Date: Tue, 1 Feb 2022 15:34:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-02 13:36:37.098448
- Title: Towards a Theoretical Understanding of Word and Relation Representation
- Title(参考訳): 言葉と関係表現の理論的理解に向けて
- Authors: Carl Allen
- Abstract要約: ベクトルまたは埋め込みによる単語の表現は、計算的推論を可能にする。
テキストコーパスと知識グラフから学習した単語埋め込みに注目した。
- 参考スコア(独自算出の注目度): 8.020742121274418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Representing words by vectors, or embeddings, enables computational reasoning
and is foundational to automating natural language tasks. For example, if word
embeddings of similar words contain similar values, word similarity can be
readily assessed, whereas judging that from their spelling is often impossible
(e.g. cat /feline) and to predetermine and store similarities between all words
is prohibitively time-consuming, memory intensive and subjective. We focus on
word embeddings learned from text corpora and knowledge graphs. Several
well-known algorithms learn word embeddings from text on an unsupervised basis
by learning to predict those words that occur around each word, e.g. word2vec
and GloVe. Parameters of such word embeddings are known to reflect word
co-occurrence statistics, but how they capture semantic meaning has been
unclear. Knowledge graph representation models learn representations both of
entities (words, people, places, etc.) and relations between them, typically by
training a model to predict known facts in a supervised manner. Despite steady
improvements in fact prediction accuracy, little is understood of the latent
structure that enables this.
The limited understanding of how latent semantic structure is encoded in the
geometry of word embeddings and knowledge graph representations makes a
principled means of improving their performance, reliability or
interpretability unclear. To address this:
1. we theoretically justify the empirical observation that particular
geometric relationships between word embeddings learned by algorithms such as
word2vec and GloVe correspond to semantic relations between words; and
2. we extend this correspondence between semantics and geometry to the
entities and relations of knowledge graphs, providing a model for the latent
structure of knowledge graph representation linked to that of word embeddings.
- Abstract(参考訳): ベクトルまたは埋め込みによる単語の表現は、計算推論を可能にし、自然言語タスクの自動化の基礎となる。
例えば、類似した単語の単語埋め込みが類似した値を含む場合、単語の類似度は容易に評価できるが、その綴りからはしばしば不可能(例えば猫/ネコ)であり、すべての単語間の類似度をあらかじめ判断し保存することは、時間的消費、記憶集約的、主観的である。
テキストコーパスと知識グラフから学習した単語埋め込みに注目した。
いくつかのよく知られたアルゴリズムは、word2vecやgloveなど、各単語の周囲で発生する単語を予測することによって、教師なしのテキストから単語埋め込みを学習する。
このような単語埋め込みのパラメータは単語共起統計を反映していることが知られているが、意味的意味の捉え方は不明確である。
知識グラフ表現モデルは、エンティティ(単語、人、場所など)とそれらの関係の両方の表現を学習する。
実際の予測精度は着実に改善されているものの、これを可能にする潜在構造についてはほとんど理解されていない。
潜在意味構造が単語埋め込みや知識グラフ表現の幾何学にどのようにエンコードされているかの限定的な理解は、その性能、信頼性、解釈性を改善する原則的な手段である。
1) 単語2vecやGloVeのようなアルゴリズムによって学習された単語埋め込み間の特定の幾何学的関係が単語間の意味的関係に対応するという経験的観察を理論的に正当化し、2) 意味論と幾何学的対応を知識グラフの実体と関係に拡張し、単語埋め込みと関連する知識グラフ表現の潜在構造モデルを提供する。
関連論文リスト
- Neighboring Words Affect Human Interpretation of Saliency Explanations [65.29015910991261]
単語レベルのサリエンシの説明は、しばしばテキストベースのモデルで特徴属性を伝えるために使われる。
近年の研究では、単語の長さなどの表面的要因が、コミュニケーションされたサリエンシスコアの人間の解釈を歪めてしまうことが報告されている。
本研究では,単語の近傍にある単語のマーキングが,その単語の重要性に対する説明者の認識にどのように影響するかを検討する。
論文 参考訳(メタデータ) (2023-05-04T09:50:25Z) - How Do Transformers Learn Topic Structure: Towards a Mechanistic
Understanding [56.222097640468306]
我々は、トランスフォーマーが「意味構造」を学ぶ方法の機械的理解を提供する
数学的解析とウィキペディアデータの実験を組み合わせることで、埋め込み層と自己保持層がトピック構造をエンコードしていることを示す。
論文 参考訳(メタデータ) (2023-03-07T21:42:17Z) - Variational Cross-Graph Reasoning and Adaptive Structured Semantics
Learning for Compositional Temporal Grounding [143.5927158318524]
テンポラルグラウンドティング(Temporal grounding)とは、クエリ文に従って、未編集のビデオから特定のセグメントを特定するタスクである。
新たに構成時間グラウンドタスクを導入し,2つの新しいデータセット分割を構築した。
ビデオや言語に内在する構造的意味論は、構成的一般化を実現する上で重要な要素である、と我々は主張する。
論文 参考訳(メタデータ) (2023-01-22T08:02:23Z) - Textual Entailment Recognition with Semantic Features from Empirical
Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。
本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。
本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文 参考訳(メタデータ) (2022-10-18T10:03:51Z) - Distilling Relation Embeddings from Pre-trained Language Models [35.718167335989854]
事前学習した言語モデルから関係埋め込みを蒸留することが可能であることを示す。
我々は、(手動または自動生成)プロンプトを使って単語ペアを符号化し、言語モデルを微調整する。
結果として得られる関係埋め込みは、アナログ(教師なし)と関係分類(教師なし)のベンチマークで非常に競合する。
論文 参考訳(メタデータ) (2021-09-21T15:05:27Z) - EDS-MEMBED: Multi-sense embeddings based on enhanced distributional
semantic structures via a graph walk over word senses [0.0]
WordNetの豊富なセマンティック構造を活用して、マルチセンス埋め込みの品質を高めます。
M-SEの新たな分布意味類似度測定法を先行して導出する。
WSDとWordの類似度タスクを含む11のベンチマークデータセットの評価結果を報告します。
論文 参考訳(メタデータ) (2021-02-27T14:36:55Z) - Using Holographically Compressed Embeddings in Question Answering [0.0]
本研究では,事前学習した埋め込みのホログラフィック圧縮を用いてトークン,そのパート・オブ・音声,名前付きエンティティタイプを表現する。
この実装は、修正された質問応答の繰り返しディープラーニングネットワークにおいて、意味的関係が保存され、高い性能が得られることを示す。
論文 参考訳(メタデータ) (2020-07-14T18:29:49Z) - On the Learnability of Concepts: With Applications to Comparing Word
Embedding Algorithms [0.0]
セマンティックコンテンツを共有した単語の一覧として「概念」の概念を導入する。
まず、この概念を用いて、事前訓練された単語埋め込みにおける概念の学習可能性を測定する。
そこで我々は,様々な埋め込みアルゴリズムの相対的メリットを比較するために,仮説テストとROC曲線に基づく概念学習可能性の統計的解析を開発した。
論文 参考訳(メタデータ) (2020-06-17T14:25:36Z) - On Vocabulary Reliance in Scene Text Recognition [79.21737876442253]
ボキャブラリ内の単語を持つ画像に対して、手法は良好に機能するが、ボキャブラリ外の単語を持つ画像にはあまり一般化しない。
私たちはこの現象を「語彙依存」と呼んでいる。
本研究では,2家族のモデルが協調的に学習できるようにするための,シンプルで効果的な相互学習戦略を提案する。
論文 参考訳(メタデータ) (2020-05-08T11:16:58Z) - Comparative Analysis of Word Embeddings for Capturing Word Similarities [0.0]
分散言語表現は、様々な自然言語処理タスクにおいて、言語表現において最も広く使われている技術となっている。
ディープラーニング技術に基づく自然言語処理モデルのほとんどは、単語埋め込みと呼ばれる、すでに訓練済みの分散単語表現を使用している。
適切な単語の埋め込みを選択することは 複雑な作業です なぜなら、投影された埋め込み空間は 人間にとって直感的ではないからです
論文 参考訳(メタデータ) (2020-05-08T01:16:03Z) - Lexical Sememe Prediction using Dictionary Definitions by Capturing
Local Semantic Correspondence [94.79912471702782]
セメムは人間の言語の最小の意味単位として定義されており、多くのNLPタスクで有用であることが証明されている。
本稿では,このようなマッチングを捕捉し,セメムを予測できるセメム対応プールモデルを提案する。
我々は,有名なSememe KB HowNetのモデルとベースライン手法を評価し,そのモデルが最先端のパフォーマンスを実現することを発見した。
論文 参考訳(メタデータ) (2020-01-16T17:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。