論文の概要: reproducing "ner and pos when nothing is capitalized"
- arxiv url: http://arxiv.org/abs/2109.08396v1
- Date: Fri, 17 Sep 2021 08:12:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-20 20:49:47.955747
- Title: reproducing "ner and pos when nothing is capitalized"
- Title(参考訳): 資本がないときに「ner and pos」を再現する
- Authors: Andreas Kuster, Jakub Filipek, Viswa Virinchi Muppirala
- Abstract要約: 私たちは、ケーシングがトレーニングデータとテストデータの間に不一致である場合に、大幅なパフォーマンス低下を緩和する方法を示します。
また、再現しようとするほぼすべての実験において、パフォーマンスがわずかに低下したことも示しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Capitalization is an important feature in many NLP tasks such as Named Entity
Recognition (NER) or Part of Speech Tagging (POS). We are trying to reproduce
results of paper which shows how to mitigate a significant performance drop
when casing is mismatched between training and testing data. In particular we
show that lowercasing 50% of the dataset provides the best performance,
matching the claims of the original paper. We also show that we got slightly
lower performance in almost all experiments we have tried to reproduce,
suggesting that there might be some hidden factors impacting our performance.
Lastly, we make all of our work available in a public github repository.
- Abstract(参考訳): キャピタライゼーションは、名前付きエンティティ認識(NER)や音声タグ(POS)など、多くのNLPタスクにおいて重要な機能である。
我々は、トレーニングデータとテストデータでケーシングがミスマッチした場合の大幅なパフォーマンス低下を緩和する方法を示す論文の結果を再現しようと試みている。
特に、データセットの50%を低くすることで、元の論文の主張と一致する最高のパフォーマンスが得られることを示す。
また、再現しようとする実験のほとんどすべてにおいて、パフォーマンスがわずかに低下していることを示し、パフォーマンスに影響を与える隠れた要因がいくつかある可能性を示唆した。
最後に、作業はすべてパブリックなgithubリポジトリで公開しています。
関連論文リスト
- The Base-Rate Effect on LLM Benchmark Performance: Disambiguating Test-Taking Strategies from Benchmark Performance [0.0]
応答トークン間のベースレート確率(BRP)差が重要であり,タスク性能に影響を及ぼすことを示す。
本研究では,MMLUのバリエーションであるNvr-X-MMLUタスクを提案する。
論文 参考訳(メタデータ) (2024-06-17T15:14:10Z) - USB: A Unified Summarization Benchmark Across Tasks and Domains [68.82726887802856]
ウィキペディア由来のベンチマークを導入し、クラウドソースアノテーションの豊富なセットを補完し、8ドルの相互関連タスクをサポートする。
このベンチマークで様々な手法を比較し、複数のタスクにおいて、中程度の大きさの微調整されたモデルが、より大きな数発の言語モデルよりも一貫して優れていることを発見した。
論文 参考訳(メタデータ) (2023-05-23T17:39:54Z) - Technical Report: Impact of Position Bias on Language Models in Token Classification [0.6372911857214884]
Named Entity Recognition (NER) やPart-of-Speech (POS) タグ付けといった下流タスクは、データ不均衡の問題に悩まされていることが知られている。
本稿では,エンコーダモデルの問題点,特にトークン分類タスクにおける正の例の位置バイアスについて考察する。
LMは,3%から9%の低下率で,このバイアスに悩まされる可能性が示唆された。
論文 参考訳(メタデータ) (2023-04-26T13:57:25Z) - Entity Disambiguation with Entity Definitions [50.01142092276296]
ローカルモデルはEntity Disambiguation (ED)で最近驚くべきパフォーマンスを達成した
それまでの研究は、各候補者のテキスト表現として、ウィキペディアのタイトルのみを使うことに限られていた。
本稿では、この制限に対処し、より表現力のあるテキスト表現がそれを緩和できる範囲について検討する。
提案する6つのベンチマークのうち2つに新たな技術の現状を報告し,未知のパターンに対する一般化能力を強く改善する。
論文 参考訳(メタデータ) (2022-10-11T17:46:28Z) - On the Eigenvalues of Global Covariance Pooling for Fine-grained Visual
Recognition [65.67315418971688]
グローバル共分散プーリング(GCP)の小さな固有値をトラッピングすることで、よりスムーズな勾配が得られることを示す。
きめ細かいデータセットでは、小さな固有値の切り抜きは、モデルを収束させるのに失敗する。
この観測から着想を得て,小さな固有値の重要性を拡大するネットワーク分岐を提案する。
論文 参考訳(メタデータ) (2022-05-26T11:41:36Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - On the Use of External Data for Spoken Named Entity Recognition [40.93448412171246]
近年の自己教師型音声表現の進歩により,ラベル付きデータに制限のある学習モデルを考えることが可能になった。
自己学習、知識蒸留、トランスファーラーニングなど、さまざまなアプローチを採用し、エンドツーエンドモデルとパイプラインアプローチの両方に適用性を検討する。
論文 参考訳(メタデータ) (2021-12-14T18:49:26Z) - A Critical Assessment of State-of-the-Art in Entity Alignment [1.7725414095035827]
本稿では,知識グラフにおけるエンティティアライメントのタスクに対する2つの最先端(SotA)手法について検討する。
まず、ベンチマークプロセスについて慎重に検討し、いくつかの欠点を特定した。
論文 参考訳(メタデータ) (2020-10-30T15:09:19Z) - Exploring and Predicting Transferability across NLP Tasks [115.6278033699853]
本研究では,33のNLPタスク間の伝達可能性について検討した。
以上の結果から,転帰学習は従来考えられていたよりも有益であることが示唆された。
また,特定の対象タスクに対して最も転送可能なソースタスクを予測するために使用できるタスク埋め込みも開発した。
論文 参考訳(メタデータ) (2020-05-02T09:39:36Z) - Active Learning for Coreference Resolution using Discrete Annotation [76.36423696634584]
我々は、コア参照解決におけるアクティブラーニングのためのペアワイズアノテーションを改善した。
提案された参照ペアがコアフェレントでないと判断された場合、アノテータに参照アンテセントを識別するよう依頼する。
既存のベンチマークコアベンチマークデータセットを用いた実験では、この追加質問からの信号が人間のアノテーション時間当たりの大幅なパフォーマンス向上につながることが示された。
論文 参考訳(メタデータ) (2020-04-28T17:17:11Z) - Is POS Tagging Necessary or Even Helpful for Neural Dependency Parsing? [22.93722845643562]
Stackのジョイントフレームワークを使用する場合,POSタグ付けによって解析性能が大幅に向上することを示す。
解析木よりもPOSタグをアノテートする方がずっと安いことを考えると,大規模な異種POSタグデータの利用も検討する。
論文 参考訳(メタデータ) (2020-03-06T13:47:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。