論文の概要: Informational Space of Meaning for Scientific Texts
- arxiv url: http://arxiv.org/abs/2004.13717v1
- Date: Tue, 28 Apr 2020 14:26:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 23:25:46.020047
- Title: Informational Space of Meaning for Scientific Texts
- Title(参考訳): 科学文献における意味の情報空間
- Authors: Neslihan Suzen, Evgeny M. Mirkes, Alexander N. Gorban
- Abstract要約: 本稿では,単語の意味を,テキストが属する対象カテゴリに関する相対情報ゲイン(RIG)のベクトルで表現する意味空間を紹介する。
Leicester Scientific Corpus (LSC) と Leicester Scientific Dictionary-Core (LScDC) に基づく意味空間の構築に本手法を適用した。
RIGに基づく提案モデルでは,カテゴリ内の話題特化語を際立たせる能力があることが示されている。
- 参考スコア(独自算出の注目度): 68.8204255655161
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Natural Language Processing, automatic extracting the meaning of texts
constitutes an important problem. Our focus is the computational analysis of
meaning of short scientific texts (abstracts or brief reports). In this paper,
a vector space model is developed for quantifying the meaning of words and
texts. We introduce the Meaning Space, in which the meaning of a word is
represented by a vector of Relative Information Gain (RIG) about the subject
categories that the text belongs to, which can be obtained from observing the
word in the text. This new approach is applied to construct the Meaning Space
based on Leicester Scientific Corpus (LSC) and Leicester Scientific
Dictionary-Core (LScDC). The LSC is a scientific corpus of 1,673,350 abstracts
and the LScDC is a scientific dictionary which words are extracted from the
LSC. Each text in the LSC belongs to at least one of 252 subject categories of
Web of Science (WoS). These categories are used in construction of vectors of
information gains. The Meaning Space is described and statistically analysed
for the LSC with the LScDC. The usefulness of the proposed representation model
is evaluated through top-ranked words in each category. The most informative n
words are ordered. We demonstrated that RIG-based word ranking is much more
useful than ranking based on raw word frequency in determining the
science-specific meaning and importance of a word. The proposed model based on
RIG is shown to have ability to stand out topic-specific words in categories.
The most informative words are presented for 252 categories. The new scientific
dictionary and the 103,998 x 252 Word-Category RIG Matrix are available online.
Analysis of the Meaning Space provides us with a tool to further explore
quantifying the meaning of a text using more complex and context-dependent
meaning models that use co-occurrence of words and their combinations.
- Abstract(参考訳): 自然言語処理では,テキストの意味の自動抽出が重要な問題となっている。
私たちの焦点は、短い科学文書の意味(要約や簡単な報告)の計算分析です。
本稿では,単語やテキストの意味を定量化するベクトル空間モデルを開発した。
本稿では,単語の意味をテキスト中の単語の観察から得られる対象カテゴリについて,相対情報ゲイン(RIG)のベクトルで表現する意味空間を紹介する。
この手法を適用して,Licester Scientific Corpus (LSC) とLeicester Scientific Dictionary-Core (LScDC) に基づく意味空間を構築する。
LSCは1,673,350の抽象語からなる科学コーパスであり、LScDCはLSCから単語を抽出する科学辞書である。
LSCの各テキストは、Web of Science(WoS)の252のカテゴリのうちの少なくとも1つに属している。
これらのカテゴリは情報ゲインのベクトルの構築に使用される。
意味空間は lscdc を用いて lsc に対して記述され統計的に解析される。
提案する表現モデルの有用性は,各カテゴリのトップランク語を用いて評価する。
最も情報性の高いn語が注文される。
我々は,リグに基づく単語ランキングが,単語の科学固有の意味と重要性を決定する上で,生語の頻度に基づくランキングよりも有用であることを示す。
RIGに基づくモデルでは,カテゴリ内の話題特化語を際立たせる能力があることが示されている。
最も有意義な単語は252のカテゴリで示される。
新しい科学辞書と103,998 x 252 Word-Category RIG Matrixがオンラインで入手できる。
意味空間の分析は、単語とその組み合わせの共起を利用したより複雑で文脈に依存した意味モデルを用いて、テキストの意味を定量化するツールを提供する。
関連論文リスト
- Tsetlin Machine Embedding: Representing Words Using Logical Expressions [10.825099126920028]
本稿では,論理節を自己教師する自動エンコーダについて紹介する。
節は、"black"、"cup"、"hot"のような文脈的な単語からなり、"coffee"のような他の単語を定義する。
我々は,GLoVeを6つの分類タスクで上回り,いくつかの内在的および外在的ベンチマークに対する埋め込み手法の評価を行った。
論文 参考訳(メタデータ) (2023-01-02T15:02:45Z) - Textual Entailment Recognition with Semantic Features from Empirical
Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。
本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。
本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文 参考訳(メタデータ) (2022-10-18T10:03:51Z) - An Informational Space Based Semantic Analysis for Scientific Texts [62.997667081978825]
本稿では、意味分析のための計算手法と、短い科学的テキストの意味の定量化について紹介する。
科学的意味の表現は、心理的特性ではなく、状況表現を置き換えることで標準化される。
本研究は,テキストの意味の幾何学的表現の基礎となる研究である。
論文 参考訳(メタデータ) (2022-05-31T11:19:32Z) - Semantic Analysis for Automated Evaluation of the Potential Impact of
Research Articles [62.997667081978825]
本稿では,情報理論に基づくテキスト意味のベクトル表現のための新しい手法を提案する。
この情報意味論がLeicester Scientific Corpusに基づいてテキスト分類にどのように使用されるかを示す。
テキストの意味を表現するための情報的アプローチは,研究論文の科学的影響を効果的に予測する方法であることを示す。
論文 参考訳(メタデータ) (2021-04-26T20:37:13Z) - What Does This Acronym Mean? Introducing a New Dataset for Acronym
Identification and Disambiguation [74.42107665213909]
頭字語は、文書中の長い文を伝達し、文章の主文の1つとして機能する短い形式の句である。
その重要性から、頭字語と対応する語句(AI)を識別し、それぞれの頭字語(AD)の正しい意味を見つけることは、テキスト理解に不可欠である。
このタスクの最近の進歩にもかかわらず、既存のデータセットにはいくつかの制限があり、さらなる改善を妨げる。
論文 参考訳(メタデータ) (2020-10-28T00:12:36Z) - Principal Components of the Meaning [58.720142291102135]
科学における(語彙的な)意味は、13次元の意味空間で表すことができる。
この空間は、単語カテゴリ相対情報ゲインの行列上の主成分分析(特異分解)を用いて構成される。
論文 参考訳(メタデータ) (2020-09-18T14:28:32Z) - Detecting New Word Meanings: A Comparison of Word Embedding Models in
Spanish [1.5356167668895644]
意味的ネオロジズム(英: Semantic neologisms, SN)は、その形態を維持しつつ、新しい意味を持つ単語である。
SNを半自動で検出するために,以下の戦略の組み合わせを実装したシステムを開発した。
本稿では,Word2Vec,Sense2Vec,FastTextという単語埋め込みモデルについて検討する。
論文 参考訳(メタデータ) (2020-01-12T21:54:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。