論文の概要: Revisiting Supertagging for Faster HPSG Pasing
- arxiv url: http://arxiv.org/abs/2309.07590v2
- Date: Tue, 08 Oct 2024 11:21:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:28:41.460168
- Title: Revisiting Supertagging for Faster HPSG Pasing
- Title(参考訳): 高速HPSGペースティングにおけるスーパータグの再検討
- Authors: Olga Zamaraeva, Carlos Gómez-Rodríguez,
- Abstract要約: 英語文法に基づく木バンクを訓練した新しいスーパータガーを提案する。
最適なタグが解析速度と精度に与える影響を検証した。
- 参考スコア(独自算出の注目度): 13.497404066306501
- License:
- Abstract: We present new supertaggers trained on English grammar-based treebanks and test the effects of the best tagger on parsing speed and accuracy. The treebanks are produced automatically by large manually built grammars and feature high-quality annotation based on a well-developed linguistic theory (HPSG). The English Resource Grammar treebanks include diverse and challenging test datasets, beyond the usual WSJ section 23 and Wikipedia data. HPSG supertagging has previously relied on MaxEnt-based models. We use SVM and neural CRF- and BERT-based methods and show that both SVM and neural supertaggers achieve considerably higher accuracy compared to the baseline and lead to an increase not only in the parsing speed but also the parser accuracy with respect to gold dependency structures. Our fine-tuned BERT-based tagger achieves 97.26\% accuracy on 950 sentences from WSJ23 and 93.88% on the out-of-domain technical essay The Cathedral and the Bazaar (cb). We present experiments with integrating the best supertagger into an HPSG parser and observe a speedup of a factor of 3 with respect to the system which uses no tagging at all, as well as large recall gains and an overall precision gain. We also compare our system to an existing integrated tagger and show that although the well-integrated tagger remains the fastest, our experimental system can be more accurate. Finally, we hope that the diverse and difficult datasets we used for evaluation will gain more popularity in the field: we show that results can differ depending on the dataset, even if it is an in-domain one. We contribute the complete datasets reformatted for Huggingface token classification.
- Abstract(参考訳): 英語文法に基づく木バンクを訓練した新しいスーパータガーを提示し、最適なタグが解析速度と精度に与える影響を検証した。
木バンクは手作業による大規模な文法によって自動生成され、よく発達した言語理論(HPSG)に基づいた高品質なアノテーションが特徴である。
English Resource Grammar treebanksには、通常のWSJセクション23とWikipediaのデータを超えて、多様で挑戦的なテストデータセットが含まれている。
HPSGのスーパータグは、以前はMaxEntベースのモデルに依存していた。
我々は,SVMとニューラルCRFおよびBERTに基づく手法を用いて,SVMとニューラルスーパータガーの両方がベースラインよりもかなり精度が高く,解析速度だけでなく,ゴールド依存構造に対するパーサ精度も向上することを示した。
細調整されたBERTベースのタグは、WSJ23の950文に対して97.26\%の精度を達成し、ドメイン外技術エッセイであるThe Cathedral and the Bazaar (cb)で93.88%の精度を実現した。
我々は,HPSGパーサに最高のスーパータガーを組み込んだ実験を行い,タグ付けを全く使用しないシステムに対する3因子の高速化と,大きなリコールゲインと全体的な精度向上を観察する。
また,本システムと既存の統合タグと比較した結果,統合されたタグは依然として最速だが,実験システムはより正確であることがわかった。
最後に、評価に使用した多様で困難なデータセットが、この分野でより人気を得ることを期待しています。
我々はHugingfaceトークン分類のための完全なデータセットをコントリビュートする。
関連論文リスト
- mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval [67.50604814528553]
まず、RoPEとアンパディングで強化されたテキストエンコーダを導入し、ネイティブの8192-tokenコンテキストで事前トレーニングを行った。
そして、コントラスト学習によりハイブリッドTRMとクロスエンコーダ・リランカを構築する。
論文 参考訳(メタデータ) (2024-07-29T03:12:28Z) - Unify word-level and span-level tasks: NJUNLP's Participation for the
WMT2023 Quality Estimation Shared Task [59.46906545506715]
我々は、WMT 2023 Quality Estimation (QE)共有タスクにNJUNLPチームを紹介する。
私たちのチームは2つのサブタスクすべてで英語とドイツ語のペアの予測を提出しました。
我々のモデルは、単語レベルと細粒度エラースパン検出サブタスクの両方において、英語とドイツ語で最高の結果を得た。
論文 参考訳(メタデータ) (2023-09-23T01:52:14Z) - ASAG: Building Strong One-Decoder-Layer Sparse Detectors via Adaptive
Sparse Anchor Generation [50.01244854344167]
適応スパースアンカージェネレータ(ASAG)の提案により、スパース検出器と密度検出器のパフォーマンスギャップを橋渡しする。
ASAGは、グリッドではなくパッチの動的なアンカーを予測することで、機能競合の問題を軽減する。
提案手法は高密度な手法より優れ,高速かつ高精度なトレードオフを実現する。
論文 参考訳(メタデータ) (2023-08-18T02:06:49Z) - Training BERT Models to Carry Over a Coding System Developed on One Corpus to Another [0.0]
本稿では,ハンガリーの文芸雑誌の段落で開発されたコーディングシステムを通じて,BERTモデルを学習する方法について述べる。
コーディングシステムの目的は、1989年のハンガリーにおける政治変革に関する文学翻訳の認識の傾向を追跡することである。
論文 参考訳(メタデータ) (2023-08-07T17:46:49Z) - AdANNS: A Framework for Adaptive Semantic Search [45.17544333215902]
Webスケールの検索システムは、エンコーダを学習し、与えられたクエリを埋め込む。
テールクエリとデータポイントを正確にキャプチャするために、学習された表現は通常、厳密で高次元のベクトルである。
本稿では,Matryoshka Representationsの柔軟性を明確に活用する新しいANNS設計フレームワークであるAdANNSを紹介する。
論文 参考訳(メタデータ) (2023-05-30T22:05:47Z) - Context-Gloss Augmentation for Improving Arabic Target Sense
Verification [1.2891210250935146]
最も一般的なアラビア語のセマンティックラベル付きデータセットはアラブ語である。
本稿では,機械のバックトランスレーションを用いて拡張することで,ArabGlossBERTデータセットの強化について述べる。
我々は、異なるデータ構成を用いて、ターゲットセンス検証(TSV)タスクにBERTを微調整する拡張の影響を計測する。
論文 参考訳(メタデータ) (2023-02-06T21:24:02Z) - Pretraining Without Attention [114.99187017618408]
本研究では、状態空間モデル(SSM)に基づくシーケンスルーティングの最近の進歩を利用して、注意を払わずに事前学習を探索する。
BiGS は GLUE 上で BERT の事前トレーニング精度と一致し、近似なしで 4096 トークンの長期事前トレーニングに拡張できる。
論文 参考訳(メタデータ) (2022-12-20T18:50:08Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - Finnish Parliament ASR corpus - Analysis, benchmarks and statistics [11.94655679070282]
フィンランド議会では、3000時間以上の演説と449人の講演者が参加し、手書きの音声データをフィンランド語で収集した最大規模である。
このコーパスは初期の作業に基づいて構築され、結果としてコーパスは2つの期間から2つのトレーニングサブセットに自然に分割される。
我々は、カルディに基づく完全なデータ準備パイプラインと隠れマルコフモデル(HMM)、ハイブリッドディープニューラルネットワーク(HMM-DNN)、アテンションベースのエンコーダデコーダ(AED)ASRレシピを開発した。
論文 参考訳(メタデータ) (2022-03-28T16:29:49Z) - Improving language models by retrieving from trillions of tokens [50.42630445476544]
大規模コーパスから取得した文書チャンクを条件付けすることで,自動回帰言語モデルを強化する。
2兆ドルのトークンデータベースで、Retrieval-Enhanced Transformer (RETRO)は、PileのGPT-3とJurassic-1に匹敵するパフォーマンスを得る。
論文 参考訳(メタデータ) (2021-12-08T17:32:34Z) - Using BERT Encoding to Tackle the Mad-lib Attack in SMS Spam Detection [0.0]
GoogleのBERTのような単語の意味や文脈に敏感な言語モデルが、この敵対的攻撃を克服するのに有用かどうかを検討する。
5572のSMSスパムメッセージのデータセットを用いて,まず検出性能の基準を確立した。
そして、これらのメッセージに含まれる語彙のシソーラスを構築し、Mad-lib攻撃実験をセットアップした。
その結果、従来のモデルは元のデータセットで94%のバランス精度(BA)を達成したのに対し、BERTモデルは96%を得た。
論文 参考訳(メタデータ) (2021-07-13T21:17:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。