論文の概要: Is the Best Better? Bayesian Statistical Model Comparison for Natural
Language Processing
- arxiv url: http://arxiv.org/abs/2010.03088v1
- Date: Tue, 6 Oct 2020 23:37:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 06:02:08.244135
- Title: Is the Best Better? Bayesian Statistical Model Comparison for Natural
Language Processing
- Title(参考訳): 一番いいのか?
自然言語処理のためのベイズ統計モデルの比較
- Authors: Piotr Szyma\'nski, Kyle Gorman
- Abstract要約: 複数のデータセットにまたがる k-fold cross-validation を用いた統計モデル比較手法を提案する。
この手法を用いて、2つのデータセットと3つの評価指標に6つの英語の音声タグをランク付けする。
- 参考スコア(独自算出の注目度): 7.65607696962806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work raises concerns about the use of standard splits to compare
natural language processing models. We propose a Bayesian statistical model
comparison technique which uses k-fold cross-validation across multiple data
sets to estimate the likelihood that one model will outperform the other, or
that the two will produce practically equivalent results. We use this technique
to rank six English part-of-speech taggers across two data sets and three
evaluation metrics.
- Abstract(参考訳): 最近の研究は、自然言語処理モデルを比較するための標準分割の使用に関する懸念を提起している。
ベイズ統計モデルの比較手法を提案し、複数のデータセットにまたがる k-fold のクロスバリデーションを用いて、一方のモデルが他方よりも優れているか、あるいは両者が実質的に等価な結果をもたらすかを推定する。
この手法を用いて、2つのデータセットと3つの評価指標に6つの英語の音声タグをランク付けする。
関連論文リスト
- Relation-based Counterfactual Data Augmentation and Contrastive Learning for Robustifying Natural Language Inference Models [0.0]
本稿では,トークンベースおよび文ベースの拡張手法を用いて,対実文ペアを生成する手法を提案する。
提案手法は,NLIモデルの性能とロバスト性を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-10-28T03:43:25Z) - Data Similarity is Not Enough to Explain Language Model Performance [6.364065652816667]
類似度は言語モデルの性能と相関する。
類似度指標は正確性や相互に相関しない。
これは、事前学習データと下流タスクの関係が、しばしば想定されるよりも複雑であることを示している。
論文 参考訳(メタデータ) (2023-11-15T14:48:08Z) - Anchor Points: Benchmarking Models with Much Fewer Examples [88.02417913161356]
6つの人気のある言語分類ベンチマークでは、多数の点の正しいクラスに対するモデル信頼度はモデル間で強く相関している。
Anchor Point Selectionは,データセット全体にわたるモデル動作をキャプチャする,データセットの小さなサブセットを選択する手法である。
平均絶対誤差が低いデータセットの他のすべての点について、クラスごとの予測モデルを推定するために、いくつかのアンカーポイントを使用することができる。
論文 参考訳(メタデータ) (2023-09-14T17:45:51Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - A Multi-dimensional Evaluation of Tokenizer-free Multilingual Pretrained
Models [87.7086269902562]
サブワードベースのモデルは、多くの設定において依然として最も実用的な選択肢であることを示している。
我々は,新しいモデルを設計し,評価する際のこれらの要因を検討するために,トークンフリーな手法の今後の取り組みを奨励する。
論文 参考訳(メタデータ) (2022-10-13T15:47:09Z) - Few-shot Text Classification with Dual Contrastive Consistency [31.141350717029358]
本稿では,事前学習した言語モデルを用いて,数ショットのテキスト分類を行う方法について検討する。
ラベル付きデータが少ない場合の教師付きコントラスト学習と、ラベルなしデータの一貫性と規則化を採用する。
論文 参考訳(メタデータ) (2022-09-29T19:26:23Z) - BenchCLAMP: A Benchmark for Evaluating Language Models on Syntactic and
Semantic Parsing [55.058258437125524]
本稿では,制約付きLanguage Model Parsingを評価するベンチマークであるBenchCLAMPを紹介する。
APIを通じてのみ利用可能な2つのGPT-3変種を含む8つの言語モデルをベンチマークする。
実験により,エンコーダ-デコーダ事前学習言語モデルでは,モデル出力が有効であると制約された場合に,構文解析や意味解析の最先端手法を超えることができることがわかった。
論文 参考訳(メタデータ) (2022-06-21T18:34:11Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Few-shot learning through contextual data augmentation [74.20290390065475]
機械翻訳モデルは、時間とともに性能を維持するために新しいデータに適応する必要がある。
一つの例から5つの例への適応が可能であることを示す。
本モデルでは,平均313個の並列例でトレーニングした基準システムよりも精度がよいことを示す。
論文 参考訳(メタデータ) (2021-03-31T09:05:43Z) - Evaluating Text Coherence at Sentence and Paragraph Levels [17.99797111176988]
本稿では,既存の文順序付け手法の段落順序付けタスクへの適応について検討する。
また、ミニデータセットとノイズの多いデータセットを人工的に作成することで、既存のモデルの学習性と堅牢性を比較する。
我々は、リカレントグラフニューラルネットワークに基づくモデルがコヒーレンスモデリングの最適選択であると結論付けている。
論文 参考訳(メタデータ) (2020-06-05T03:31:49Z) - Preference Modeling with Context-Dependent Salient Features [12.403492796441434]
本稿では,各項目の特徴について,ノイズの多いペアワイド比較から,項目集合のランキングを推定する問題を考察する。
私たちのキーとなる観察は、他の項目から分離して比較した2つの項目は、機能の健全なサブセットのみに基づいて比較できるということです。
論文 参考訳(メタデータ) (2020-02-22T04:05:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。