論文の概要: A Controlled Reevaluation of Coreference Resolution Models
- arxiv url: http://arxiv.org/abs/2404.00727v2
- Date: Tue, 23 Apr 2024 00:45:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 18:56:32.383535
- Title: A Controlled Reevaluation of Coreference Resolution Models
- Title(参考訳): 干渉分解モデルの再評価
- Authors: Ian Porada, Xiyuan Zou, Jackie Chi Kit Cheung,
- Abstract要約: 5つのCRモデルを評価し,それぞれが使用する事前学習言語モデルを含む設計決定の制御を行う。
言語モデルのサイズを制御する場合、エンコーダベースのCRモデルは、精度と推論速度の両方の観点から、より最近のデコーダベースのモデルより優れている。
我々は,過去5年間に報告されたF1スコアの増加により,言語モデルの選択に対する制御がほとんどだが,すべてではないと結論付けている。
- 参考スコア(独自算出の注目度): 18.85727777572728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: All state-of-the-art coreference resolution (CR) models involve finetuning a pretrained language model. Whether the superior performance of one CR model over another is due to the choice of language model or other factors, such as the task-specific architecture, is difficult or impossible to determine due to lack of a standardized experimental setup. To resolve this ambiguity, we systematically evaluate five CR models and control for certain design decisions including the pretrained language model used by each. When controlling for language model size, encoder-based CR models outperform more recent decoder-based models in terms of both accuracy and inference speed. Surprisingly, among encoder-based CR models, more recent models are not always more accurate, and the oldest CR model that we test generalizes the best to out-of-domain textual genres. We conclude that controlling for the choice of language model reduces most, but not all, of the increase in F1 score reported in the past five years.
- Abstract(参考訳): すべての最先端コア参照解決(CR)モデルは、事前訓練された言語モデルを微調整する。
1つのCRモデルの優れた性能は、言語モデルの選択によるものか、タスク固有のアーキテクチャのような他の要因によるものか、標準化された実験装置がないため決定が難しいか、あるいは不可能である。
この曖昧さを解決するため、5つのCRモデルを体系的に評価し、それぞれが使用する事前学習言語モデルを含む設計決定の制御を行う。
言語モデルのサイズを制御する場合、エンコーダベースのCRモデルは、精度と推論速度の両方の観点から、より最近のデコーダベースのモデルより優れている。
驚いたことに、エンコーダベースのCRモデルの中で、より最近のモデルは必ずしも正確ではない。
我々は,過去5年間に報告されたF1スコアの増加により,言語モデルの選択に対する制御がほとんどだが,すべてではないと結論付けている。
関連論文リスト
- Multilingual and Multi-topical Benchmark of Fine-tuned Language models and Large Language Models for Check-Worthy Claim Detection [1.4779899760345434]
本研究では,(1)微調整言語モデルと(2)チェック価値のあるクレーム検出タスクにおける大規模言語モデルの性能を比較した。
様々なソースやスタイルのテキストからなる多言語・多言語データセットを構築した。
論文 参考訳(メタデータ) (2023-11-10T15:36:35Z) - A Comprehensive Evaluation and Analysis Study for Chinese Spelling Check [53.152011258252315]
音声とグラフィックの情報を合理的に使用することは,中国語のスペルチェックに有効であることを示す。
モデルはテストセットのエラー分布に敏感であり、モデルの欠点を反映している。
一般的なベンチマークであるSIGHANは、モデルの性能を確実に評価できない。
論文 参考訳(メタデータ) (2023-07-25T17:02:38Z) - Rethinking Masked Language Modeling for Chinese Spelling Correction [70.85829000570203]
言語モデルと誤りモデルという2つの異なるモデルによる共同決定として,中国語のスペル補正(CSC)について検討する。
細調整されたBERTは、言語モデルに不適合なままエラーモデルに過度に適合する傾向にあり、その結果、分布外エラーパターンへの一般化が不十分であることがわかった。
微調整中に入力シーケンスから20%の非エラートークンをランダムにマスキングする非常に単純な戦略は、エラーモデルを犠牲にすることなく、はるかに優れた言語モデルを学ぶのに十分であることを示す。
論文 参考訳(メタデータ) (2023-05-28T13:19:12Z) - Investigating Ensemble Methods for Model Robustness Improvement of Text
Classifiers [66.36045164286854]
既存のバイアス機能を分析し、すべてのケースに最適なモデルが存在しないことを実証します。
適切なバイアスモデルを選択することで、より洗練されたモデル設計でベースラインよりもロバスト性が得られる。
論文 参考訳(メタデータ) (2022-10-28T17:52:10Z) - A Multi-dimensional Evaluation of Tokenizer-free Multilingual Pretrained
Models [87.7086269902562]
サブワードベースのモデルは、多くの設定において依然として最も実用的な選択肢であることを示している。
我々は,新しいモデルを設計し,評価する際のこれらの要因を検討するために,トークンフリーな手法の今後の取り組みを奨励する。
論文 参考訳(メタデータ) (2022-10-13T15:47:09Z) - DIRECTOR: Generator-Classifiers For Supervised Language Modeling [27.86870968048833]
現在の言語モデルは難易度は低いが、結果として生じる世代は依然として有毒な反応、反復性、矛盾に悩まされている。
我々は,各出力トークンに対して,言語モデリングと分類ヘッドを併用した統一型ジェネレータからなる新しいアーキテクチャであるc Directorを導入する。
論文 参考訳(メタデータ) (2022-06-15T17:44:08Z) - Language Models are General-Purpose Interfaces [109.45478241369655]
本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。
事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚する
インタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
論文 参考訳(メタデータ) (2022-06-13T17:34:22Z) - What Language Model Architecture and Pretraining Objective Work Best for
Zero-Shot Generalization? [50.84738303888189]
本稿では,モデル選択の大規模評価とそのゼロショット一般化への影響について述べる。
私たちは、70億以上のトークンに対して、50億以上のパラメータを持つモデルをトレーニングします。
事前学習した因果デコーダモデルを非因果デコーダモデルに効率的に適用できることが判明した。
論文 参考訳(メタデータ) (2022-04-12T14:19:49Z) - Model Compression for Domain Adaptation through Causal Effect Estimation [20.842938440720303]
ATE誘導モデル圧縮スキーム(AMoC)は、除去されたモデルコンポーネントによって異なる多くのモデル候補を生成する。
次に、ATEを利用した段階的回帰モデルを用いて、最適候補を選択し、対象領域における期待性能を予測する。
AMoCは2つのテキスト分類タスクで60のドメインペアのうち46の強いベースラインより優れており、F1の平均的な改善は最強のベースラインより3%以上多い。
論文 参考訳(メタデータ) (2021-01-18T14:18:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。