論文の概要: Improve Document Embedding for Text Categorization Through Deep Siamese
Neural Network
- arxiv url: http://arxiv.org/abs/2006.00572v1
- Date: Sun, 31 May 2020 17:51:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 12:32:47.270258
- Title: Improve Document Embedding for Text Categorization Through Deep Siamese
Neural Network
- Title(参考訳): ディープシームスニューラルネットワークによるテキスト分類のための文書埋め込みの改善
- Authors: Erfaneh Gharavi, Hadi Veisi
- Abstract要約: テキストの低次元表現は、効率的な自然言語処理タスクにおける主要な課題の1つである。
ベクトル空間表現において、類似したトピックを持つ文書を類似した空間にマッピングするために、ディープ・シームズニューラルネットワークの利用を提案する。
提案した表現は,本データセットのテキスト分類タスクにおいて,従来型および最先端の表現よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 2.398608007786179
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the increasing amount of data on the internet, finding a
highly-informative, low-dimensional representation for text is one of the main
challenges for efficient natural language processing tasks including text
classification. This representation should capture the semantic information of
the text while retaining their relevance level for document classification.
This approach maps the documents with similar topics to a similar space in
vector space representation. To obtain representation for large text, we
propose the utilization of deep Siamese neural networks. To embed document
relevance in topics in the distributed representation, we use a Siamese neural
network to jointly learn document representations. Our Siamese network consists
of two sub-network of multi-layer perceptron. We examine our representation for
the text categorization task on BBC news dataset. The results show that the
proposed representations outperform the conventional and state-of-the-art
representations in the text classification task on this dataset.
- Abstract(参考訳): インターネット上のデータ量の増加により、テキスト分類を含む効率的な自然言語処理タスクにおいて、高インフォーマルで低次元のテキスト表現を見つけることが大きな課題となっている。
この表現は、文書分類の関連レベルを維持しながら、テキストの意味情報をキャプチャするべきである。
このアプローチは、文書を類似したトピックでベクトル空間表現の類似した空間にマッピングする。
大規模テキストの表現を得るために,ディープ・シームズニューラルネットワークの利用を提案する。
分散表現にトピックにドキュメントの関連性を埋め込むために、siameseニューラルネットワークを使用してドキュメント表現を共同学習する。
siameseネットワークは、多層パーセプトロンの2つのサブネットワークからなる。
bbcニュースデータセットにおけるテキスト分類タスクの表現について検討する。
その結果,提案した表現は,本データセットのテキスト分類タスクにおいて,従来および最先端の表現よりも優れていた。
関連論文リスト
- Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - Attentive Deep Neural Networks for Legal Document Retrieval [2.4350217735794337]
法令文書検索における注意型ニューラルネットワークを用いたテキスト表現法について検討した。
長い文や記事を表すために,2つの階層型アーキテクチャを開発し,それをAttentive CNN と Paraformer と命名する。
実験結果から,知覚的ニューラル法は,データセットや言語間での検索性能において,非神経的手法を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2022-12-13T01:37:27Z) - TeKo: Text-Rich Graph Neural Networks with External Knowledge [75.91477450060808]
外部知識を用いた新しいテキストリッチグラフニューラルネットワーク(TeKo)を提案する。
まず、高品質なエンティティを組み込んだフレキシブルな異種セマンティックネットワークを提案する。
次に、構造化三重項と非構造化実体記述という2種類の外部知識を導入する。
論文 参考訳(メタデータ) (2022-06-15T02:33:10Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - Deep Learning for Text Style Transfer: A Survey [71.8870854396927]
テキストスタイル転送は、生成したテキストの特定の属性を制御することを目的として、自然言語生成において重要なタスクである。
2017年の最初のニューラルテキストスタイル転送作業以降,100以上の代表的な記事を対象とした,ニューラルテキストスタイル転送の研究の体系的な調査を行う。
タスクの定式化、既存のデータセットとサブタスク、評価、並列データと非並列データの存在下での豊富な方法論について論じる。
論文 参考訳(メタデータ) (2020-11-01T04:04:43Z) - Be More with Less: Hypergraph Attention Networks for Inductive Text
Classification [56.98218530073927]
グラフニューラルネットワーク(GNN)は、研究コミュニティで注目され、この標準タスクで有望な結果を実証している。
成功にもかかわらず、それらのパフォーマンスは、単語間の高次相互作用をキャプチャできないため、実際は大部分が危険に晒される可能性がある。
本稿では,テキスト表現学習において,少ない計算量でより表現力の高いハイパーグラフアテンションネットワーク(HyperGAT)を提案する。
論文 参考訳(メタデータ) (2020-11-01T00:21:59Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - From text saliency to linguistic objects: learning linguistic
interpretable markers with a multi-channels convolutional architecture [2.064612766965483]
本稿では,分類プロセスを利用したテキストから解釈可能な言語オブジェクトを抽出するために,実装されたCNNの隠れ層を検査する手法を提案する。
我々は、英語とフランス語の2つの異なる言語からのコーパスに対するアプローチの効率を実証的に実証した。
論文 参考訳(メタデータ) (2020-04-07T10:46:58Z) - Inductive Document Network Embedding with Topic-Word Attention [5.8010446129208155]
文書ネットワークの埋め込みは、文書が相互にリンクされているとき、構造化されたテキストコーパスの表現を学習することを目的としている。
近年のアルゴリズムでは、ノードに関連付けられたテキストコンテンツを定式化に組み込むことで、ネットワーク埋め込みアプローチを拡張している。
本稿では,解釈可能かつインダクティブな文書ネットワークの埋め込み手法を提案する。
論文 参考訳(メタデータ) (2020-01-10T10:14:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。