論文の概要: Precise Task Formalization Matters in Winograd Schema Evaluations
- arxiv url: http://arxiv.org/abs/2010.04043v1
- Date: Thu, 8 Oct 2020 15:10:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 12:16:32.597886
- Title: Precise Task Formalization Matters in Winograd Schema Evaluations
- Title(参考訳): ウィノグラードスキーマ評価におけるタスクの精密化
- Authors: Haokun Liu, William Huang, Dhara A. Mungra, Samuel R. Bowman
- Abstract要約: ウィノグラードチャレンジのパフォーマンスは、偶然の正確さからスーパーGLUEのリーダーボードの89%まで向上した。
この改善の多くは、タスクの形式化の最近の変化によるものだと仮定する。
- 参考スコア(独自算出の注目度): 28.949399736177526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Performance on the Winograd Schema Challenge (WSC), a respected English
commonsense reasoning benchmark, recently rocketed from chance accuracy to 89%
on the SuperGLUE leaderboard, with relatively little corroborating evidence of
a correspondingly large improvement in reasoning ability. We hypothesize that
much of this improvement comes from recent changes in task formalization---the
combination of input specification, loss function, and reuse of pretrained
parameters---by users of the dataset, rather than improvements in the
pretrained model's reasoning ability. We perform an ablation on two Winograd
Schema datasets that interpolates between the formalizations used before and
after this surge, and find (i) framing the task as multiple choice improves
performance by 2-6 points and (ii) several additional techniques, including the
reuse of a pretrained language modeling head, can mitigate the model's extreme
sensitivity to hyperparameters. We urge future benchmark creators to impose
additional structure to minimize the impact of formalization decisions on
reported results.
- Abstract(参考訳): 英国の常識推論ベンチマークであるwinograd schema challenge(wsc)のパフォーマンスは、最近、偶然の正確さから、スーパーグルーのリーダーボード上で89%に上昇した。
この改善の多くは、事前トレーニングモデルの推論能力の改善ではなく、データセットのユーザによる、入力仕様、損失関数、および事前トレーニングパラメータの再利用の組み合わせによる、最近のタスクフォーマイゼーションの変化によるものだと仮定します。
2つのWinograd Schemaデータセット上でアブレーションを行い、このサージ前後の形式化を補間し、発見する。
(i)複数の選択としてタスクをフレーミングすることで、性能が2~6ポイント向上する
(ii)事前訓練された言語モデリングヘッドの再利用を含むいくつかの追加技術は、ハイパーパラメータに対するモデルの極端な感度を軽減することができる。
今後のベンチマーククリエーターには、報告結果に対する形式化決定の影響を最小限に抑えるため、追加構造を課すよう求めます。
関連論文リスト
- Invariant Test-Time Adaptation for Vision-Language Model Generalization [90.70743356588996]
学習可能なプロンプトを最適化するテスト時間プロンプトチューニングのパラダイムを導入し,真の因果不変性を活用できるようにモデルを説得する。
提案手法は,潜在的に誤解を招く可能性のあるタスク関連文脈情報への過度な依存を効果的に軽減する。
論文 参考訳(メタデータ) (2024-03-01T09:01:53Z) - EsaCL: Efficient Continual Learning of Sparse Models [10.227171407348326]
連続的な学習設定の主な課題は、以前に学習したタスクを実行する方法を忘れずに、タスクのシーケンスを効率的に学習することである。
本研究では,モデルの予測力に悪影響を及ぼすことなく,冗長なパラメータを自動生成する,スパースモデル(EsaCL)の効率的な連続学習法を提案する。
論文 参考訳(メタデータ) (2024-01-11T04:59:44Z) - QualEval: Qualitative Evaluation for Model Improvement [86.29905469151566]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - A Multi-dimensional Evaluation of Tokenizer-free Multilingual Pretrained
Models [87.7086269902562]
サブワードベースのモデルは、多くの設定において依然として最も実用的な選択肢であることを示している。
我々は,新しいモデルを設計し,評価する際のこれらの要因を検討するために,トークンフリーな手法の今後の取り組みを奨励する。
論文 参考訳(メタデータ) (2022-10-13T15:47:09Z) - PALBERT: Teaching ALBERT to Ponder [0.2538209532048867]
本稿では,新しい決定論的Q-exit基準と再検討されたモデルアーキテクチャを用いて,PenderNetの改良を提案する。
提案した変更は,オリジナルのPenderNetアーキテクチャの大幅な改善とみなすことができる。
論文 参考訳(メタデータ) (2022-04-07T08:01:13Z) - Class-Incremental Learning by Knowledge Distillation with Adaptive
Feature Consolidation [39.97128550414934]
本稿では,ディープニューラルネットワークに基づく新しいクラスインクリメンタル学習手法を提案する。
以前のタスクの例を格納するためのメモリが限られている新しいタスクを継続的に学習する。
我々のアルゴリズムは知識蒸留に基づいており、古いモデルの表現を維持するための原則的な方法を提供する。
論文 参考訳(メタデータ) (2022-04-02T16:30:04Z) - Data Augmentation through Expert-guided Symmetry Detection to Improve
Performance in Offline Reinforcement Learning [0.0]
マルコフ決定過程(MDP)の動的モデルのオフライン推定は非自明な作業である。
近年の研究では、密度推定法に依存する専門家誘導パイプラインが、決定論的環境において、この構造を効果的に検出できることが示されている。
学習したMDPを解き、実際の環境に最適化されたポリシーを適用すると、前者の結果が性能改善につながることを示す。
論文 参考訳(メタデータ) (2021-12-18T14:32:32Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - Supervised Contrastive Learning for Pre-trained Language Model
Fine-tuning [23.00300794016583]
最先端の自然言語理解分類モデルは2段階に従う。
微調整段階に対する教師付きコントラスト学習(SCL)の目的を提案する。
提案した微調整目的は、微調整訓練データにおいて、異なるレベルのノイズに対してより堅牢なモデルに導かれる。
論文 参考訳(メタデータ) (2020-11-03T01:10:39Z) - Contrast and Classify: Training Robust VQA Models [60.80627814762071]
本稿では,クロスエントロピーとコントラスト損失の両方を最適化する新しいトレーニングパラダイム(ConClaT)を提案する。
双方の損失を -- 交互に,あるいは共同で -- 最適化することが,効果的なトレーニングの鍵であることに気付きました。
論文 参考訳(メタデータ) (2020-10-13T00:23:59Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。