論文の概要: Revisiting Supertagging for HPSG
- arxiv url: http://arxiv.org/abs/2309.07590v1
- Date: Thu, 14 Sep 2023 10:49:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 15:27:04.804217
- Title: Revisiting Supertagging for HPSG
- Title(参考訳): hpsgのスーパータグ再検討
- Authors: Olga Zamaraeva, Carlos G\'omez-Rodr\'iguez
- Abstract要約: 我々はHPSGベースのツリーバンクで訓練された新しいスーパータガーを提案する。
これらの木バンクは、十分に発達した言語理論に基づく高品質なアノテーションを特徴としている。
我々は、SVMとニューラルCRFとBERTに基づく手法を用いて、SVMとニューラルスーパータガーの両方がベースラインよりもかなり精度が高いことを示す。
- 参考スコア(独自算出の注目度): 0.7614628596146599
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present new supertaggers trained on HPSG-based treebanks. These treebanks
feature high-quality annotation based on a well-developed linguistic theory and
include diverse and challenging test datasets, beyond the usual WSJ section 23
and Wikipedia data. HPSG supertagging has previously relied on MaxEnt-based
models. We use SVM and neural CRF- and BERT-based methods and show that both
SVM and neural supertaggers achieve considerably higher accuracy compared to
the baseline. Our fine-tuned BERT-based tagger achieves 97.26% accuracy on 1000
sentences from WSJ23 and 93.88% on the completely out-of-domain The Cathedral
and the Bazaar (cb)). We conclude that it therefore makes sense to integrate
these new supertaggers into modern HPSG parsers, and we also hope that the
diverse and difficult datasets we used here will gain more popularity in the
field. We contribute the complete dataset reformatted for token classification.
- Abstract(参考訳): 我々はHPSGベースのツリーバンクで訓練された新しいスーパータガーを提案する。
これらのツリーバンクは、よく開発された言語理論に基づいた高品質のアノテーションを特徴とし、通常のwsjセクション23とwikipediaデータを超えて、多様で挑戦的なテストデータセットを含んでいる。
HPSGのスーパータグは以前はMaxEntベースのモデルに依存していた。
我々は、SVMとニューラルCRFとBERTに基づく手法を用いて、SVMとニューラルスーパータガーの両方がベースラインよりもかなり精度が高いことを示す。
我々の微調整されたbertベースのタガーは、wsj23からの1000文の97.26%の正確さと、大聖堂とバザール(cb)の完全な領域外における93.88%を達成した。
したがって、これらの新しいスーパータガーを現代のHPSGパーサに統合することは理にかなっていると結論付け、ここで使用した多様で困難なデータセットがこの分野でより人気を得ることを期待している。
我々はトークン分類のために改定された完全なデータセットに貢献する。
関連論文リスト
- mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval [67.50604814528553]
まず、RoPEとアンパディングで強化されたテキストエンコーダを導入し、ネイティブの8192-tokenコンテキストで事前トレーニングを行った。
そして、コントラスト学習によりハイブリッドTRMとクロスエンコーダ・リランカを構築する。
論文 参考訳(メタデータ) (2024-07-29T03:12:28Z) - Unify word-level and span-level tasks: NJUNLP's Participation for the
WMT2023 Quality Estimation Shared Task [59.46906545506715]
我々は、WMT 2023 Quality Estimation (QE)共有タスクにNJUNLPチームを紹介する。
私たちのチームは2つのサブタスクすべてで英語とドイツ語のペアの予測を提出しました。
我々のモデルは、単語レベルと細粒度エラースパン検出サブタスクの両方において、英語とドイツ語で最高の結果を得た。
論文 参考訳(メタデータ) (2023-09-23T01:52:14Z) - ASAG: Building Strong One-Decoder-Layer Sparse Detectors via Adaptive
Sparse Anchor Generation [50.01244854344167]
適応スパースアンカージェネレータ(ASAG)の提案により、スパース検出器と密度検出器のパフォーマンスギャップを橋渡しする。
ASAGは、グリッドではなくパッチの動的なアンカーを予測することで、機能競合の問題を軽減する。
提案手法は高密度な手法より優れ,高速かつ高精度なトレードオフを実現する。
論文 参考訳(メタデータ) (2023-08-18T02:06:49Z) - Training BERT Models to Carry Over a Coding System Developed on One Corpus to Another [0.0]
本稿では,ハンガリーの文芸雑誌の段落で開発されたコーディングシステムを通じて,BERTモデルを学習する方法について述べる。
コーディングシステムの目的は、1989年のハンガリーにおける政治変革に関する文学翻訳の認識の傾向を追跡することである。
論文 参考訳(メタデータ) (2023-08-07T17:46:49Z) - AdANNS: A Framework for Adaptive Semantic Search [45.17544333215902]
Webスケールの検索システムは、エンコーダを学習し、与えられたクエリを埋め込む。
テールクエリとデータポイントを正確にキャプチャするために、学習された表現は通常、厳密で高次元のベクトルである。
本稿では,Matryoshka Representationsの柔軟性を明確に活用する新しいANNS設計フレームワークであるAdANNSを紹介する。
論文 参考訳(メタデータ) (2023-05-30T22:05:47Z) - Context-Gloss Augmentation for Improving Arabic Target Sense
Verification [1.2891210250935146]
最も一般的なアラビア語のセマンティックラベル付きデータセットはアラブ語である。
本稿では,機械のバックトランスレーションを用いて拡張することで,ArabGlossBERTデータセットの強化について述べる。
我々は、異なるデータ構成を用いて、ターゲットセンス検証(TSV)タスクにBERTを微調整する拡張の影響を計測する。
論文 参考訳(メタデータ) (2023-02-06T21:24:02Z) - Pretraining Without Attention [114.99187017618408]
本研究では、状態空間モデル(SSM)に基づくシーケンスルーティングの最近の進歩を利用して、注意を払わずに事前学習を探索する。
BiGS は GLUE 上で BERT の事前トレーニング精度と一致し、近似なしで 4096 トークンの長期事前トレーニングに拡張できる。
論文 参考訳(メタデータ) (2022-12-20T18:50:08Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - Finnish Parliament ASR corpus - Analysis, benchmarks and statistics [11.94655679070282]
フィンランド議会では、3000時間以上の演説と449人の講演者が参加し、手書きの音声データをフィンランド語で収集した最大規模である。
このコーパスは初期の作業に基づいて構築され、結果としてコーパスは2つの期間から2つのトレーニングサブセットに自然に分割される。
我々は、カルディに基づく完全なデータ準備パイプラインと隠れマルコフモデル(HMM)、ハイブリッドディープニューラルネットワーク(HMM-DNN)、アテンションベースのエンコーダデコーダ(AED)ASRレシピを開発した。
論文 参考訳(メタデータ) (2022-03-28T16:29:49Z) - Improving language models by retrieving from trillions of tokens [50.42630445476544]
大規模コーパスから取得した文書チャンクを条件付けすることで,自動回帰言語モデルを強化する。
2兆ドルのトークンデータベースで、Retrieval-Enhanced Transformer (RETRO)は、PileのGPT-3とJurassic-1に匹敵するパフォーマンスを得る。
論文 参考訳(メタデータ) (2021-12-08T17:32:34Z) - Using BERT Encoding to Tackle the Mad-lib Attack in SMS Spam Detection [0.0]
GoogleのBERTのような単語の意味や文脈に敏感な言語モデルが、この敵対的攻撃を克服するのに有用かどうかを検討する。
5572のSMSスパムメッセージのデータセットを用いて,まず検出性能の基準を確立した。
そして、これらのメッセージに含まれる語彙のシソーラスを構築し、Mad-lib攻撃実験をセットアップした。
その結果、従来のモデルは元のデータセットで94%のバランス精度(BA)を達成したのに対し、BERTモデルは96%を得た。
論文 参考訳(メタデータ) (2021-07-13T21:17:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。