論文の概要: Word Equations: Inherently Interpretable Sparse Word Embeddingsthrough
Sparse Coding
- arxiv url: http://arxiv.org/abs/2004.13847v3
- Date: Mon, 27 Sep 2021 21:43:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 07:50:45.470403
- Title: Word Equations: Inherently Interpretable Sparse Word Embeddingsthrough
Sparse Coding
- Title(参考訳): 単語方程式:スパース符号化によるスパースワード埋め込みの継承
- Authors: Adly Templeton
- Abstract要約: それぞれの次元が、その次元の意味を記述できる人間の理解可能なヒントと結びついているシステムを作成する。
我々はこれらの埋め込みをスパース符号化により構築し、基底集合の各ベクトルはそれ自体がワード埋め込みである。
これらのスパース埋め込みを用いて訓練されたモデルは、優れた性能を達成でき、人的評価を含む実践上より解釈可能であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Word embeddings are a powerful natural language processing technique, but
they are extremely difficult to interpret. To enable interpretable NLP models,
we create vectors where each dimension is inherently interpretable. By
inherently interpretable, we mean a system where each dimension is associated
with some human understandable hint that can describe the meaning of that
dimension. In order to create more interpretable word embeddings, we transform
pretrained dense word embeddings into sparse embeddings. These new embeddings
are inherently interpretable: each of their dimensions is created from and
represents a natural language word or specific grammatical concept. We
construct these embeddings through sparse coding, where each vector in the
basis set is itself a word embedding. Therefore, each dimension of our sparse
vectors corresponds to a natural language word. We also show that models
trained using these sparse embeddings can achieve good performance and are more
interpretable in practice, including through human evaluations.
- Abstract(参考訳): 単語埋め込みは強力な自然言語処理技術であるが、解釈は非常に困難である。
解釈可能なNLPモデルを実現するために,各次元が本質的に解釈可能なベクトルを生成する。
本質的に解釈可能であり、各次元が、その次元の意味を記述できる人間の理解可能なヒントと関連付けられるシステムを意味する。
より解釈可能な単語埋め込みを生成するために、事前学習された単語埋め込みをスパース埋め込みに変換する。
これらの新しい埋め込みは本質的に解釈可能である:それぞれの次元は自然言語単語または特定の文法概念から作成され、表現される。
我々はこれらの埋め込みをスパース符号化により構築し、基底集合の各ベクトルはそれ自体がワード埋め込みである。
したがって、我々のスパースベクトルの各次元は自然言語単語に対応する。
また、これらの疎埋め込みを用いて訓練されたモデルは、優れた性能を達成でき、人的評価を含む実践上より解釈可能であることも示している。
関連論文リスト
- Adjusting Interpretable Dimensions in Embedding Space with Human Judgments [15.311454588182707]
埋め込み空間は、性別、スタイルの形式性、さらにはオブジェクトの性質を示す解釈可能な次元を含む。
これらの次元を計算する標準的な方法は、シードワードの対比を使い、それらの上の差分ベクトルを計算する。
種に基づくベクトルと、単語が特定の次元に沿って落ちる場所の人間の評価からのガイダンスを組み合わせて、サイズや危険といったオブジェクト特性を予測する。
論文 参考訳(メタデータ) (2024-04-03T10:13:18Z) - Interpretable Neural Embeddings with Sparse Self-Representation [6.969983808566474]
既存の単語埋め込みは一般に密接な表現であり、従って潜在次元の意味を解釈することは困難である。
これにより、単語の埋め込みはブラックボックスのようになり、人間が読めるようになり、さらに操作されるのを防ぐ。
本稿では,表現的,解釈可能な単語埋め込みを学習するために,データ自己表現と浅いニューラルネットワークを関連付ける新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-25T05:57:01Z) - Representation Of Lexical Stylistic Features In Language Models'
Embedding Space [28.60690854046176]
これらのスタイリスティックな概念のそれぞれに対して,少数のシードペアのみからベクトル表現を導出できることが示されている。
5つのデータセットで実験を行い、静的な埋め込みがこれらの特徴を単語やフレーズのレベルでより正確にエンコードすることを発見した。
単語レベルでの文脈化表現の低い性能は、ベクトル空間の異方性に起因する。
論文 参考訳(メタデータ) (2023-05-29T23:44:26Z) - SenteCon: Leveraging Lexicons to Learn Human-Interpretable Language
Representations [51.08119762844217]
SenteConは、深層言語表現に人間の解釈可能性を導入する方法である。
SenteConは、下流タスクにおける予測性能にほとんど、あるいは全くコストをかからない高レベルな解釈性を提供する。
論文 参考訳(メタデータ) (2023-05-24T05:06:28Z) - Linear Spaces of Meanings: Compositional Structures in Vision-Language
Models [110.00434385712786]
事前学習された視覚言語モデル(VLM)からのデータ埋め込みにおける構成構造について検討する。
まず,幾何学的観点から構成構造を理解するための枠組みを提案する。
次に、これらの構造がVLM埋め込みの場合の確率論的に持つものを説明し、実際に発生する理由の直観を提供する。
論文 参考訳(メタデータ) (2023-02-28T08:11:56Z) - Low-Dimensional Structure in the Space of Language Representations is
Reflected in Brain Responses [62.197912623223964]
言語モデルと翻訳モデルは,単語の埋め込み,構文的・意味的タスク,将来的な単語埋め込みとの間を円滑に介在する低次元構造を示す。
この表現埋め込みは、各特徴空間が、fMRIを用いて記録された自然言語刺激に対する人間の脳反応にどれだけうまく対応しているかを予測することができる。
これは、埋め込みが脳の自然言語表現構造の一部を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-06-09T22:59:12Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Learning Universal Representations from Word to Sentence [89.82415322763475]
この研究は普遍的な表現学習、すなわち一様ベクトル空間における言語単位の異なるレベルへの埋め込みを導入し、探求する。
本稿では, 単語, 句, 文の観点から, 類似したデータセットを構築するためのアプローチを提案する。
適切なトレーニング設定を組み込んだよく訓練されたトランスフォーマーモデルが、効果的に普遍的な表現が得られることを実証的に検証する。
論文 参考訳(メタデータ) (2020-09-10T03:53:18Z) - Using Holographically Compressed Embeddings in Question Answering [0.0]
本研究では,事前学習した埋め込みのホログラフィック圧縮を用いてトークン,そのパート・オブ・音声,名前付きエンティティタイプを表現する。
この実装は、修正された質問応答の繰り返しディープラーニングネットワークにおいて、意味的関係が保存され、高い性能が得られることを示す。
論文 参考訳(メタデータ) (2020-07-14T18:29:49Z) - Supervised Understanding of Word Embeddings [1.160208922584163]
単語埋め込みにおける線形キーワードレベル分類器の形で教師付きプロジェクションを得た。
我々は,本手法が元の埋め込み次元の解釈可能な投影を生成することを示した。
論文 参考訳(メタデータ) (2020-06-23T20:13:42Z) - Anchor & Transform: Learning Sparse Embeddings for Large Vocabularies [60.285091454321055]
我々は,アンカー埋め込みとスパース変換行列の小さな組を学習する,単純で効率的な埋め込みアルゴリズムを設計する。
テキスト分類、言語モデリング、映画レコメンデーションのベンチマークでは、ANTは大きな語彙サイズに特に適していることが示されている。
論文 参考訳(メタデータ) (2020-03-18T13:07:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。