論文の概要: Effectiveness of Deep Networks in NLP using BiDAF as an example
architecture
- arxiv url: http://arxiv.org/abs/2109.00074v1
- Date: Tue, 31 Aug 2021 20:50:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-02 20:55:19.967219
- Title: Effectiveness of Deep Networks in NLP using BiDAF as an example
architecture
- Title(参考訳): BiDAFを例として用いたNLPにおけるディープネットワークの有効性
- Authors: Soumyendu Sarkar
- Abstract要約: BiDAFのモデルエンコーダ層に着目したディープネットワークの有効性について検討する。
NLPの次の最大のモデルは、実際には、複合アーキテクチャを備えたBERTのようなソリッド言語モデリングで折り畳まれると思います。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Question Answering with NLP has progressed through the evolution of advanced
model architectures like BERT and BiDAF and earlier word, character, and
context-based embeddings. As BERT has leapfrogged the accuracy of models, an
element of the next frontier can be the introduction of deep networks and an
effective way to train them. In this context, I explored the effectiveness of
deep networks focussing on the model encoder layer of BiDAF. BiDAF with its
heterogeneous layers provides the opportunity not only to explore the
effectiveness of deep networks but also to evaluate whether the refinements
made in lower layers are additive to the refinements made in the upper layers
of the model architecture. I believe the next greatest model in NLP will in
fact fold in a solid language modeling like BERT with a composite architecture
which will bring in refinements in addition to generic language modeling and
will have a more extensive layered architecture. I experimented with the Bypass
network, Residual Highway network, and DenseNet architectures. In addition, I
evaluated the effectiveness of ensembling the last few layers of the network. I
also studied the difference character embeddings make in adding them to the
word embeddings, and whether the effects are additive with deep networks. My
studies indicate that deep networks are in fact effective in giving a boost.
Also, the refinements in the lower layers like embeddings are passed on
additively to the gains made through deep networks.
- Abstract(参考訳): NLPによる質問回答は、BERTやBiDAFのような高度なモデルアーキテクチャと、初期の単語、文字、コンテキストベースの埋め込みの進化を通じて進歩してきた。
BERTはモデルの精度を飛躍的に向上させたので、次のフロンティアの要素はディープネットワークの導入とそれらを訓練する効果的な方法である。
本稿では,BiDAFのモデルエンコーダ層に着目したディープネットワークの有効性を検討した。
BiDAFは、その異種層を持つことにより、深層ネットワークの有効性を探求するだけでなく、低層層における改善がモデルアーキテクチャの上層における改善に寄与するかどうかを評価する機会を提供する。
NLPの次の最大のモデルは、実際にはBERTのようなソリッド言語モデリングに、ジェネリック言語モデリングに加えて改善をもたらす複合アーキテクチャで折り畳み、より広範な階層化アーキテクチャを持つだろうと私は信じています。
Bypassネットワーク、Residual Highwayネットワーク、DenseNetアーキテクチャを試しました。
さらに,ネットワークの最後の数層をセンシングする効果も評価した。
また,単語埋め込みに文字埋め込みを追加する場合の差について検討し,その効果が深層ネットワークに付加的であるかを検討した。
私の研究は、ディープネットワークが実際に有効であることを示している。
また、埋め込みなどの下位層における改良は、ディープネットワークによるゲインに付加的に渡される。
関連論文リスト
- Informed deep hierarchical classification: a non-standard analysis inspired approach [0.0]
出力層の前に配置された特定のプロジェクション演算子を備えた多出力ディープニューラルネットワークで構成されている。
このようなアーキテクチャの設計は、LH-DNN(Lexicographic Hybrid Deep Neural Network)と呼ばれ、異なる研究分野と非常に離れた研究分野のツールを組み合わせることで実現されている。
アプローチの有効性を評価するために、階層的な分類タスクに適した畳み込みニューラルネットワークであるB-CNNと比較する。
論文 参考訳(メタデータ) (2024-09-25T14:12:50Z) - (PASS) Visual Prompt Locates Good Structure Sparsity through a Recurrent HyperNetwork [60.889175951038496]
大規模ニューラルネットワークは、視覚や言語処理など、さまざまな領域で顕著なパフォーマンスを示している。
構造的刈り込みの鍵となる問題のひとつは、チャネルの意義を見積もる方法である。
我々は,新しいアルゴリズムフレームワーク,すなわち textttPASS を提案する。
視覚的プロンプトとネットワーク重み統計の両方を入力とし、繰り返し的に層ワイドチャネル間隔を出力するように調整されたハイパーネットワークである。
論文 参考訳(メタデータ) (2024-07-24T16:47:45Z) - Layer-wise Linear Mode Connectivity [52.6945036534469]
ニューラルネットワークパラメータの平均化は、2つの独立したモデルの知識の直感的な方法である。
フェデレートラーニングにおいて最も顕著に用いられている。
私たちは、単一グループやグループを平均化するモデルの性能を分析します。
論文 参考訳(メタデータ) (2023-07-13T09:39:10Z) - How transfer learning impacts linguistic knowledge in deep NLP models? [22.035813865470956]
ディープNLPモデルは、モデルの異なる層でキャプチャされた、非自明な量の言語知識を学習する。
下流のNLPタスクに対する微調整が学習言語知識に与える影響について検討する。
論文 参考訳(メタデータ) (2021-05-31T17:43:57Z) - ProgressiveSpinalNet architecture for FC layers [0.0]
ディープラーニングモデルでは、FC層は、以前の層から学んだ特徴に基づいて入力の分類に最も重要な役割を有する。
本稿では,これらのパラメータを大幅に削減し,性能を向上することを目的とする。
動機はSpinalNetや他の生物学的アーキテクチャからインスピレーションを得ています。
論文 参考訳(メタデータ) (2021-03-21T11:54:50Z) - Firefly Neural Architecture Descent: a General Approach for Growing
Neural Networks [50.684661759340145]
firefly neural architecture descentは、ニューラルネットワークを漸進的かつ動的に成長させるための一般的なフレームワークである。
ホタルの降下は、より広く、より深くネットワークを柔軟に成長させ、正確だがリソース効率のよいニューラルアーキテクチャを学習するために応用できることを示す。
特に、サイズは小さいが、最先端の手法で学習したネットワークよりも平均精度が高いネットワークを学習する。
論文 参考訳(メタデータ) (2021-02-17T04:47:18Z) - Improving Neural Network Robustness through Neighborhood Preserving
Layers [0.751016548830037]
このような層を組み込むことができ、効率的にトレーニングできる新しいニューラルネットワークアーキテクチャを実証する。
我々は、設計したネットワークアーキテクチャが、最先端の勾配に基づく攻撃に対してより堅牢であることを実証的に示す。
論文 参考訳(メタデータ) (2021-01-28T01:26:35Z) - A Layer-Wise Information Reinforcement Approach to Improve Learning in
Deep Belief Networks [0.4893345190925178]
本稿では,情報強化層を層単位で検討し,特徴抽出と知識保持を改善するResidual Deep Belief Networkを提案する。
3つの公開データセットで実施した実験は、バイナリイメージ分類のタスクに関する堅牢性を示している。
論文 参考訳(メタデータ) (2021-01-17T18:53:18Z) - Dual-constrained Deep Semi-Supervised Coupled Factorization Network with
Enriched Prior [80.5637175255349]
本稿では、DS2CF-Netと呼ばれる、拡張された事前制約付きDual-Constrained Deep Semi-Supervised Coupled Factorization Networkを提案する。
隠れた深い特徴を抽出するために、DS2CF-Netは、深い構造と幾何学的な構造に制約のあるニューラルネットワークとしてモデル化される。
我々のネットワークは、表現学習とクラスタリングのための最先端の性能を得ることができる。
論文 参考訳(メタデータ) (2020-09-08T13:10:21Z) - Go Wide, Then Narrow: Efficient Training of Deep Thin Networks [62.26044348366186]
本稿では,深層ネットワークを理論的保証で訓練する効率的な手法を提案する。
我々の方法でのトレーニングにより、ResNet50はResNet101を上回り、BERT BaseはBERT Largeに匹敵する。
論文 参考訳(メタデータ) (2020-07-01T23:34:35Z) - Convolutional Networks with Dense Connectivity [59.30634544498946]
Dense Convolutional Network (DenseNet)を導入し、フィードフォワード方式で各レイヤを他のすべてのレイヤに接続する。
各レイヤについて、先行するすべてのレイヤのフィーチャーマップをインプットとして使用し、それ自身のフィーチャーマップをその後のすべてのレイヤへのインプットとして使用します。
提案したアーキテクチャを、4つの高度に競争力のあるオブジェクト認識ベンチマークタスクで評価する。
論文 参考訳(メタデータ) (2020-01-08T06:54:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。