論文の概要: Dependency Parsing is More Parameter-Efficient with Normalization
- arxiv url: http://arxiv.org/abs/2505.20215v1
- Date: Mon, 26 May 2025 16:56:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 19:27:27.024872
- Title: Dependency Parsing is More Parameter-Efficient with Normalization
- Title(参考訳): 係り受け解析は正規化に有効である
- Authors: Paolo Gajo, Domenic Rosati, Hassan Sajjad, Alberto Barrón-Cedeño,
- Abstract要約: 依存解析は自然言語構造を推定するタスクであり、しばしばバイファインスコアリングを通じて単語の相互作用をモデル化することでアプローチされる。
このメカニズムは、文中の単語のペアごとにスコアが計算されるトランスフォーマーの自己注意のように機能する。
トランスフォーマーのアテンションとは異なり、バイファインスコアはスコアのソフトマックスを取る前に正規化を使用しない。
- 参考スコア(独自算出の注目度): 16.66749686411209
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dependency parsing is the task of inferring natural language structure, often approached by modeling word interactions via attention through biaffine scoring. This mechanism works like self-attention in Transformers, where scores are calculated for every pair of words in a sentence. However, unlike Transformer attention, biaffine scoring does not use normalization prior to taking the softmax of the scores. In this paper, we provide theoretical evidence and empirical results revealing that a lack of normalization necessarily results in overparameterized parser models, where the extra parameters compensate for the sharp softmax outputs produced by high variance inputs to the biaffine scoring function. We argue that biaffine scoring can be made substantially more efficient by performing score normalization. We conduct experiments on six datasets for semantic and syntactic dependency parsing using a one-hop parser. We train N-layer stacked BiLSTMs and evaluate the parser's performance with and without normalizing biaffine scores. Normalizing allows us to beat the state of the art on two datasets, with fewer samples and trainable parameters. Code: https://anonymous.4open.science/r/EfficientSDP-70C1
- Abstract(参考訳): 依存解析は自然言語構造を推定するタスクであり、しばしばバイファインスコアリングを通じて単語の相互作用をモデル化することによってアプローチされる。
このメカニズムは、文中の単語のペアごとにスコアが計算されるトランスフォーマーの自己注意のように機能する。
しかし、トランスフォーマーのアテンションとは異なり、バイファインスコアはスコアのソフトマックスを取る前に正規化を使用しない。
本稿では,正規化の欠如が必然的に過パラメータ化パーザモデルをもたらすことを示す理論的証拠と実験結果を提供する。
バイファインスコアは, スコア正規化を行うことにより, より効率的に行うことができると論じる。
セマンティック・セマンティック・依存性解析のための6つのデータセットについて,ワンホップ・パーサを用いて実験を行った。
我々は,N層積み重ねBiLSTMを訓練し,バイファインスコアを正規化せずにパーサの性能を評価する。
正規化によって、2つのデータセットで最先端のデータを、より少ないサンプルとトレーニング可能なパラメータで打ち負かすことができます。
コード:https://anonymous.4open.science/r/EfficientSDP-70C1
関連論文リスト
- Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective [50.261681681643076]
本稿では,SemVarEffectとSemVarBenchというベンチマークを用いて,テキスト・画像合成における入力のセマンティックな変化と出力の因果性を評価する。
本研究は,T2I合成コミュニティによるヒューマンインストラクション理解の探索を促進する効果的な評価枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T08:45:35Z) - Provable benefits of score matching [30.317535687908755]
スコアマッチング損失が計算効率良く最適化できるような分布の自然指数族の最初の例を示す。
確率損失を最適化するためのゼロ階または1階のオラクルの設計はNPハードであることを示す。
スコアマッチング損失の最小化は、計算的かつ統計的に効率的であり、周囲の次元は複雑である。
論文 参考訳(メタデータ) (2023-06-03T03:42:30Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - Accelerating Attention through Gradient-Based Learned Runtime Pruning [9.109136535767478]
自己認識は、トランスフォーマーベースの自然言語処理モデルにおいて、最先端の精度を実現する重要な手段である。
本稿では、学習の損失関数に組み込まれたソフトな微分可能正規化器による探索を定式化する。
我々は、ビットレベルの早期終了マイクロアーキテクチャ機構を持つトランスフォーマー言語モデルに対して、LeOPArdと呼ばれるビットシリアルアーキテクチャを考案した。
論文 参考訳(メタデータ) (2022-04-07T05:31:13Z) - On The Ingredients of an Effective Zero-shot Semantic Parser [95.01623036661468]
我々は、標準発話とプログラムの訓練例を文法から言い換えて、ゼロショット学習を分析する。
改良された文法,より強力なパラフレーズ,効率的な学習手法を用いて,これらのギャップを埋めることを提案する。
我々のモデルはラベル付きデータゼロの2つの意味解析ベンチマーク(Scholar, Geo)で高い性能を達成する。
論文 参考訳(メタデータ) (2021-10-15T21:41:16Z) - A Simple Global Neural Discourse Parser [61.728994693410954]
本稿では,手作業で構築した特徴を必要とせず,学習したスパン表現のみに基づく簡易なグラフベースニューラル談話を提案する。
我々は,我々のモデルが世界規模で最高の性能を達成し,最先端の欲求に匹敵する性能を実証的に示す。
論文 参考訳(メタデータ) (2020-09-02T19:28:40Z) - Is Supervised Syntactic Parsing Beneficial for Language Understanding?
An Empirical Investigation [71.70562795158625]
従来のNLPは、高レベルセマンティック言語理解(LU)の成功に必要な構文解析を長い間保持(教師付き)してきた。
近年のエンドツーエンドニューラルネットワークの出現、言語モデリング(LM)による自己監視、および幅広いLUタスクにおける成功は、この信念に疑問を投げかけている。
本研究では,LM-Pretrained Transformer Network の文脈における意味的LUに対する教師あり構文解析の有用性を実証的に検討する。
論文 参考訳(メタデータ) (2020-08-15T21:03:36Z) - Efficient Second-Order TreeCRF for Neural Dependency Parsing [23.426500262860777]
ディープラーニング(DL)時代には、構文解析モデルは極めて単純化され、性能にほとんど影響を与えない。
本稿では,2階目のTreeCRF拡張について述べる。
本研究では,内部とビタビアルゴリズムをバッチ化して直接大行列演算を行う手法を提案する。
論文 参考訳(メタデータ) (2020-05-03T03:18:59Z) - Word2Vec: Optimal Hyper-Parameters and Their Impact on NLP Downstream
Tasks [1.6507910904669727]
ハイパーパラメータの最適組み合わせを示し、様々な組み合わせを評価する。
提案手法は,従来のモデルと比較して,より優れた人為的なWordSimスコア,対応するSpearman相関,ダウンストリーム性能を得る。
論文 参考訳(メタデータ) (2020-03-23T07:38:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。