論文の概要: Recurrent Neural Networks with Mixed Hierarchical Structures and EM
Algorithm for Natural Language Processing
- arxiv url: http://arxiv.org/abs/2201.08919v1
- Date: Fri, 21 Jan 2022 23:08:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-25 14:02:14.097660
- Title: Recurrent Neural Networks with Mixed Hierarchical Structures and EM
Algorithm for Natural Language Processing
- Title(参考訳): 階層構造を混合したニューラルネットワークと自然言語処理のためのemアルゴリズム
- Authors: Zhaoxin Luo and Michael Zhu
- Abstract要約: 我々は潜在指標層と呼ばれる手法を開発し、暗黙的な階層的情報を特定し学習する。
また、トレーニングにおいて潜在指標層を扱うEMアルゴリズムを開発した。
ブートストラップトレーニングによるEM-HRNNモデルは,文書分類タスクにおいて,他のRNNモデルよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 9.645196221785694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How to obtain hierarchical representations with an increasing level of
abstraction becomes one of the key issues of learning with deep neural
networks. A variety of RNN models have recently been proposed to incorporate
both explicit and implicit hierarchical information in modeling languages in
the literature. In this paper, we propose a novel approach called the latent
indicator layer to identify and learn implicit hierarchical information (e.g.,
phrases), and further develop an EM algorithm to handle the latent indicator
layer in training. The latent indicator layer further simplifies a text's
hierarchical structure, which allows us to seamlessly integrate different
levels of attention mechanisms into the structure. We called the resulting
architecture as the EM-HRNN model. Furthermore, we develop two bootstrap
strategies to effectively and efficiently train the EM-HRNN model on long text
documents. Simulation studies and real data applications demonstrate that the
EM-HRNN model with bootstrap training outperforms other RNN-based models in
document classification tasks. The performance of the EM-HRNN model is
comparable to a Transformer-based method called Bert-base, though the former is
much smaller model and does not require pre-training.
- Abstract(参考訳): 抽象度が高まる階層表現をどのように得るかは、ディープニューラルネットワークを用いた学習の重要な問題のひとつとなる。
文学におけるモデリング言語における明示的および暗黙的な階層的情報の両方を組み込むために、RNNモデルが最近提案されている。
本稿では,潜在指標層と呼ばれる新しい手法を提案し,暗黙的な階層情報(句など)を識別し,学習し,また,潜在指標層を扱うEMアルゴリズムをさらに発展させる。
潜在インジケータ層はさらにテキストの階層構造を単純化し、異なるレベルの注意メカニズムを構造にシームレスに統合することができます。
得られたアーキテクチャをEM-HRNNモデルと呼びました。
さらに,長文文書上でEM-HRNNモデルを効果的かつ効率的に学習するための2つのブートストラップ戦略を開発した。
シミュレーション研究と実データ応用により,ブートストラップトレーニングによるEM-HRNNモデルは,文書分類タスクにおいて,他のRNNベースモデルよりも優れていることが示された。
EM-HRNNモデルの性能は、バートベースと呼ばれるトランスフォーマーベースの手法に匹敵するが、前者はより小さく、事前訓練を必要としない。
関連論文リスト
- Language Models are Graph Learners [70.14063765424012]
言語モデル(LM)は、グラフニューラルネットワーク(GNN)やグラフトランスフォーマー(GT)など、ドメイン固有のモデルの優位性に挑戦している。
本稿では,ノード分類タスクにおける最先端のGNNに匹敵する性能を実現するために,既製のLMを有効活用する手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T08:27:54Z) - Informed deep hierarchical classification: a non-standard analysis inspired approach [0.0]
出力層の前に配置された特定のプロジェクション演算子を備えた多出力ディープニューラルネットワークで構成されている。
このようなアーキテクチャの設計は、LH-DNN(Lexicographic Hybrid Deep Neural Network)と呼ばれ、異なる研究分野と非常に離れた研究分野のツールを組み合わせることで実現されている。
アプローチの有効性を評価するために、階層的な分類タスクに適した畳み込みニューラルネットワークであるB-CNNと比較する。
論文 参考訳(メタデータ) (2024-09-25T14:12:50Z) - Revisiting N-Gram Models: Their Impact in Modern Neural Networks for Handwritten Text Recognition [4.059708117119894]
本研究は,言語モデル,特にn-gramモデルが,手書き認識の分野における最先端のディープラーニングアーキテクチャの性能に引き続き寄与するかどうかを論じる。
我々は、明示的なn-gram言語モデルを統合することなく、2つの著名なニューラルネットワークアーキテクチャ、PyLaiaとDANを評価した。
その結果,文字やサブワードの n-gram モデルの導入は,すべてのデータセット上での ATR モデルの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-04-30T07:37:48Z) - Analyzing Populations of Neural Networks via Dynamical Model Embedding [10.455447557943463]
ディープニューラルネットワークの解釈における中核的な課題は、同じタスクのためにトレーニングされた異なるネットワークによって実装された基盤となるアルゴリズム間の共通点を特定することである。
この問題に触発されたDYNAMOは,各点がニューラルネットワークモデルに対応する低次元多様体を構築するアルゴリズムであり,対応するニューラルネットワークが同様のハイレベルな計算処理を実行する場合,その近傍に2つの点が存在する。
DYNAMOは、事前訓練されたニューラルネットワークのコレクションを入力として、隠された状態のダイナミクスとコレクション内の任意のモデルの出力をエミュレートするメタモデルを出力する。
論文 参考訳(メタデータ) (2023-02-27T19:00:05Z) - Learning with Multigraph Convolutional Filters [153.20329791008095]
MSPモデルに基づいて情報を処理する階層構造として多グラフ畳み込みニューラルネットワーク(MGNN)を導入する。
また,MGNNにおけるフィルタ係数のトラクタブルな計算手法と,レイヤ間で転送される情報の次元性を低減するための低コストな手法を開発した。
論文 参考訳(メタデータ) (2022-10-28T17:00:50Z) - Self Semi Supervised Neural Architecture Search for Semantic
Segmentation [6.488575826304023]
セグメンテーションの課題に対する自己監督と半教師付き学習に基づくニューラルアーキテクチャ検索戦略を提案する。
このアプローチは、このタスクに最適化されたニューラルネットワークモデルを構築します。
CityscapesとPASCAL VOC 2012データセットの実験では、発見されたニューラルネットワークは最先端の手作りNNモデルよりも効率的であることが示されている。
論文 参考訳(メタデータ) (2022-01-29T19:49:44Z) - Multi-Scale Semantics-Guided Neural Networks for Efficient
Skeleton-Based Human Action Recognition [140.18376685167857]
スケルトンに基づく行動認識には,単純なマルチスケールセマンティクス誘導ニューラルネットワークが提案されている。
MS-SGNは、NTU60、NTU120、SYSUデータセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-11-07T03:50:50Z) - HRKD: Hierarchical Relational Knowledge Distillation for Cross-domain
Language Model Compression [53.90578309960526]
大規模事前学習言語モデル(PLM)は、従来のニューラルネットワーク手法と比較して圧倒的な性能を示している。
階層的および領域的関係情報の両方を抽出する階層的関係知識蒸留法(HRKD)を提案する。
論文 参考訳(メタデータ) (2021-10-16T11:23:02Z) - PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive
Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。
本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T08:28:30Z) - Train your classifier first: Cascade Neural Networks Training from upper
layers to lower layers [54.47911829539919]
我々は,高品質な分類器を探索するアルゴリズムとして見ることのできる,新しいトップダウン学習手法を開発した。
本研究では,自動音声認識(ASR)タスクと言語モデリングタスクについて検討した。
提案手法は,Wall Street Journal 上でのリカレントニューラルネットワーク ASR モデル,Switchboard 上での自己注意型 ASR モデル,WikiText-2 上での AWD-LSTM 言語モデルなど,一貫して改善されている。
論文 参考訳(メタデータ) (2021-02-09T08:19:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。