論文の概要: On the Learnability of Concepts: With Applications to Comparing Word
Embedding Algorithms
- arxiv url: http://arxiv.org/abs/2006.09896v1
- Date: Wed, 17 Jun 2020 14:25:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 18:57:37.925396
- Title: On the Learnability of Concepts: With Applications to Comparing Word
Embedding Algorithms
- Title(参考訳): 概念の学習可能性について : 単語埋め込みアルゴリズムの比較への応用
- Authors: Adam Sutton and Nello Cristianini
- Abstract要約: セマンティックコンテンツを共有した単語の一覧として「概念」の概念を導入する。
まず、この概念を用いて、事前訓練された単語埋め込みにおける概念の学習可能性を測定する。
そこで我々は,様々な埋め込みアルゴリズムの相対的メリットを比較するために,仮説テストとROC曲線に基づく概念学習可能性の統計的解析を開発した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Word Embeddings are used widely in multiple Natural Language Processing (NLP)
applications. They are coordinates associated with each word in a dictionary,
inferred from statistical properties of these words in a large corpus. In this
paper we introduce the notion of "concept" as a list of words that have shared
semantic content. We use this notion to analyse the learnability of certain
concepts, defined as the capability of a classifier to recognise unseen members
of a concept after training on a random subset of it. We first use this method
to measure the learnability of concepts on pretrained word embeddings. We then
develop a statistical analysis of concept learnability, based on hypothesis
testing and ROC curves, in order to compare the relative merits of various
embedding algorithms using a fixed corpora and hyper parameters. We find that
all embedding methods capture the semantic content of those word lists, but
fastText performs better than the others.
- Abstract(参考訳): ワード埋め込みは、複数の自然言語処理(NLP)アプリケーションで広く使われている。
これらは辞書内の各単語に関連付けられた座標であり、大きなコーパス内のこれらの単語の統計的性質から推測される。
本稿では,意味コンテンツを共有する単語の一覧として「概念」の概念を紹介する。
我々はこの概念を用いて、ある概念の学習可能性を分析し、その概念のランダムなサブセットを訓練した後で、その概念の未確認メンバーを認識する分類器の能力として定義される。
まず,事前学習された単語埋め込みにおける概念の学習可能性を測定する。
次に,仮説テストとROC曲線に基づく概念学習可能性の統計的解析を行い,固定コーパスとハイパーパラメータを用いた様々な埋め込みアルゴリズムの相対的な利点を比較する。
すべての埋め込みメソッドがそれらのワードリストのセマンティックコンテンツをキャプチャするが、fastTextは他のものよりもパフォーマンスが良い。
関連論文リスト
- Efficient Induction of Language Models Via Probabilistic Concept
Formation [13.632454840363916]
コーパスから言語モデルを取得するための新しいアプローチを提案する。
このフレームワークは、確率論的概念の分類学的階層を構築するための初期のシステムであるCobweb上に構築されている。
Cobwebの3つの新しい拡張(Word、Leaf、Pathの亜種)について調べる。
論文 参考訳(メタデータ) (2022-12-22T18:16:58Z) - Textual Entailment Recognition with Semantic Features from Empirical
Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。
本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。
本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文 参考訳(メタデータ) (2022-10-18T10:03:51Z) - DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for
Open-world Detection [118.36746273425354]
本稿では,デザインされた概念辞書から知識の豊かさを生かして,オープンワールド検出のための並列視覚概念事前学習手法を提案する。
概念をそれらの記述で豊かにすることにより、オープンドメイン学習を促進するために、さまざまな概念間の関係を明確に構築する。
提案フレームワークは、例えばLVISデータセット上で、強力なゼロショット検出性能を示し、私たちのDetCLIP-TはGLIP-Tを9.9%向上させ、レアカテゴリで13.5%改善した。
論文 参考訳(メタデータ) (2022-09-20T02:01:01Z) - Towards a Theoretical Understanding of Word and Relation Representation [8.020742121274418]
ベクトルまたは埋め込みによる単語の表現は、計算的推論を可能にする。
テキストコーパスと知識グラフから学習した単語埋め込みに注目した。
論文 参考訳(メタデータ) (2022-02-01T15:34:58Z) - Semantic Search for Large Scale Clinical Ontologies [63.71950996116403]
本稿では,大規模臨床語彙検索システムを構築するための深層学習手法を提案する。
本稿では,意味学習データに基づくトレーニングデータを生成するTriplet-BERTモデルを提案する。
このモデルは,5つの実ベンチマークデータセットを用いて評価され,提案手法は自由テキストから概念,概念まで,概念語彙の検索において高い結果が得られることを示す。
論文 参考訳(メタデータ) (2022-01-01T05:15:42Z) - Can a Fruit Fly Learn Word Embeddings? [16.280120177501733]
フルーツフライ脳は、神経科学で最も研究されたシステムの1つです。
ネットワークモチーフは単語の意味表現を学習し,静的および文脈依存の単語埋め込みを生成できることを示す。
また,fruit fly networkのモチーフはnlpの既存の手法に匹敵する性能を実現するだけでなく,計算資源のほんの一部しか使用できないことを示した。
論文 参考訳(メタデータ) (2021-01-18T05:41:50Z) - PBoS: Probabilistic Bag-of-Subwords for Generalizing Word Embedding [16.531103175919924]
単語の埋め込みを一般化する作業について検討する。
有限語彙上の事前訓練された単語ベクトルの集合が与えられた場合、その目標は語彙外単語に対する埋め込みベクトルを予測することである。
サブワードセグメント化を同時にモデル化し,サブワードをベースとした合成単語の埋め込みを計算できるモデルを提案する。
論文 参考訳(メタデータ) (2020-10-21T08:11:08Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - Comparative Analysis of Word Embeddings for Capturing Word Similarities [0.0]
分散言語表現は、様々な自然言語処理タスクにおいて、言語表現において最も広く使われている技術となっている。
ディープラーニング技術に基づく自然言語処理モデルのほとんどは、単語埋め込みと呼ばれる、すでに訓練済みの分散単語表現を使用している。
適切な単語の埋め込みを選択することは 複雑な作業です なぜなら、投影された埋め込み空間は 人間にとって直感的ではないからです
論文 参考訳(メタデータ) (2020-05-08T01:16:03Z) - Word Sense Disambiguation for 158 Languages using Word Embeddings Only [80.79437083582643]
文脈における単語感覚の曖昧さは人間にとって容易であるが、自動的アプローチでは大きな課題である。
本稿では,学習前の標準単語埋め込みモデルを入力として,完全に学習した単語認識のインベントリを誘導する手法を提案する。
この手法を用いて、158の言語に対して、事前訓練されたfastText単語の埋め込みに基づいて、センスインベントリのコレクションを誘導する。
論文 参考訳(メタデータ) (2020-03-14T14:50:04Z) - Lexical Sememe Prediction using Dictionary Definitions by Capturing
Local Semantic Correspondence [94.79912471702782]
セメムは人間の言語の最小の意味単位として定義されており、多くのNLPタスクで有用であることが証明されている。
本稿では,このようなマッチングを捕捉し,セメムを予測できるセメム対応プールモデルを提案する。
我々は,有名なSememe KB HowNetのモデルとベースライン手法を評価し,そのモデルが最先端のパフォーマンスを実現することを発見した。
論文 参考訳(メタデータ) (2020-01-16T17:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。