論文の概要: Searching for Discriminative Words in Multidimensional Continuous
Feature Space
- arxiv url: http://arxiv.org/abs/2211.14631v1
- Date: Sat, 26 Nov 2022 18:05:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 14:27:46.729451
- Title: Searching for Discriminative Words in Multidimensional Continuous
Feature Space
- Title(参考訳): 多次元連続特徴空間における識別語探索
- Authors: Marius Sajgalik and Michal Barla and Maria Bielikova
- Abstract要約: 文書から識別キーワードを抽出する新しい手法を提案する。
異なる差別的指標が全体的な結果にどのように影響するかを示す。
単語特徴ベクトルは文書の意味のトピック的推論を大幅に改善することができると結論付けている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Word feature vectors have been proven to improve many NLP tasks. With recent
advances in unsupervised learning of these feature vectors, it became possible
to train it with much more data, which also resulted in better quality of
learned features. Since it learns joint probability of latent features of
words, it has the advantage that we can train it without any prior knowledge
about the goal task we want to solve. We aim to evaluate the universal
applicability property of feature vectors, which has been already proven to
hold for many standard NLP tasks like part-of-speech tagging or syntactic
parsing. In our case, we want to understand the topical focus of text documents
and design an efficient representation suitable for discriminating different
topics. The discriminativeness can be evaluated adequately on text
categorisation task. We propose a novel method to extract discriminative
keywords from documents. We utilise word feature vectors to understand the
relations between words better and also understand the latent topics which are
discussed in the text and not mentioned directly but inferred logically. We
also present a simple way to calculate document feature vectors out of
extracted discriminative words. We evaluate our method on the four most popular
datasets for text categorisation. We show how different discriminative metrics
influence the overall results. We demonstrate the effectiveness of our approach
by achieving state-of-the-art results on text categorisation task using just a
small number of extracted keywords. We prove that word feature vectors can
substantially improve the topical inference of documents' meaning. We conclude
that distributed representation of words can be used to build higher levels of
abstraction as we demonstrate and build feature vectors of documents.
- Abstract(参考訳): ワード特徴ベクトルは多くのNLPタスクを改善することが証明されている。
これらの特徴ベクトルの教師なし学習の最近の進歩により、さらに多くのデータで学習することが可能となり、学習された特徴の質も向上した。
単語の潜在的な特徴の合同確率を学習するので、解決したい目標タスクに関する事前の知識なしに学習することができるという利点がある。
我々は,音声のタグ付けや構文解析など,多くの標準NLPタスクですでに実証されている特徴ベクトルの普遍的適用性を評価することを目的とする。
本稿では,テキスト文書のトピック的焦点を理解し,異なるトピックの識別に適した効率的な表現を設計したい。
この判別性は、テキスト分類タスクで適切に評価することができる。
文書から識別キーワードを抽出する新しい手法を提案する。
単語特徴ベクトルを用いて単語間の関係をよりよく理解するとともに,テキスト内で議論され,直接言及されることなく論理的に推測される潜在トピックについても理解する。
また,抽出された識別語から文書の特徴ベクトルを計算する簡易な方法を提案する。
本手法は,テキスト分類のための4つの最もポピュラーなデータセットについて評価する。
異なる識別指標が全体の結果にどのように影響するかを示す。
少数の抽出キーワードを用いて,テキスト分類作業における最先端結果の達成によるアプローチの有効性を示す。
単語特徴ベクトルは文書の意味のトピック的推論を大幅に改善できることを示す。
単語の分散表現は、ドキュメントの特徴ベクトルを実証し構築する際に、より高いレベルの抽象化を構築するために使用できると結論づける。
関連論文リスト
- Word Embedding Dimension Reduction via Weakly-Supervised Feature Selection [34.217661429283666]
語彙が大きくなるにつれて、ベクトル空間の次元は増加し、それが膨大なモデルサイズに繋がる。
本稿では,単語埋め込み次元の減少について検討する。
本稿では,WordFS という機能選択手法を提案する。
論文 参考訳(メタデータ) (2024-07-17T06:36:09Z) - Span-Aggregatable, Contextualized Word Embeddings for Effective Phrase Mining [0.22499166814992438]
目的語句が雑音の多い文脈内に存在する場合, 単語の完全文を1つの高次ベクトルで表すだけでは, 効果的な句検索には不十分であることを示す。
本稿では,この手法がフレーズマイニングに有用であるが,有用なスパン表現を得るためには,かなりの計算が必要であることを示す。
論文 参考訳(メタデータ) (2024-05-12T12:08:05Z) - Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - Tsetlin Machine Embedding: Representing Words Using Logical Expressions [10.825099126920028]
本稿では,論理節を自己教師する自動エンコーダについて紹介する。
節は、"black"、"cup"、"hot"のような文脈的な単語からなり、"coffee"のような他の単語を定義する。
我々は,GLoVeを6つの分類タスクで上回り,いくつかの内在的および外在的ベンチマークに対する埋め込み手法の評価を行った。
論文 参考訳(メタデータ) (2023-01-02T15:02:45Z) - Textual Entailment Recognition with Semantic Features from Empirical
Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。
本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。
本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文 参考訳(メタデータ) (2022-10-18T10:03:51Z) - Deriving Word Vectors from Contextualized Language Models using
Topic-Aware Mention Selection [46.97185212695267]
本稿では,この基本戦略に従って単語表現を学習する手法を提案する。
我々は、文脈を符号化するワードベクトルの袋ではなく、文脈化された言語モデル(CLM)を利用する。
この単純な戦略は、単語埋め込みや既存のCLMベースの戦略よりも意味的特性をより予測し、高品質な単語ベクトルに繋がることを示す。
論文 参考訳(メタデータ) (2021-06-15T08:02:42Z) - EDS-MEMBED: Multi-sense embeddings based on enhanced distributional
semantic structures via a graph walk over word senses [0.0]
WordNetの豊富なセマンティック構造を活用して、マルチセンス埋め込みの品質を高めます。
M-SEの新たな分布意味類似度測定法を先行して導出する。
WSDとWordの類似度タスクを含む11のベンチマークデータセットの評価結果を報告します。
論文 参考訳(メタデータ) (2021-02-27T14:36:55Z) - Accelerating Text Mining Using Domain-Specific Stop Word Lists [57.76576681191192]
本稿では,超平面的アプローチと呼ばれるドメイン固有語の自動抽出手法を提案する。
ハイパープレーンベースのアプローチは、無関係な特徴を排除することによって、テキストの寸法を著しく削減することができる。
その結果,超平面型アプローチはコーパスの寸法を90%削減し,相互情報より優れることがわかった。
論文 参考訳(メタデータ) (2020-11-18T17:42:32Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。