論文の概要: Precise Task Formalization Matters in Winograd Schema Evaluations
- arxiv url: http://arxiv.org/abs/2010.04043v1
- Date: Thu, 8 Oct 2020 15:10:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 12:16:32.597886
- Title: Precise Task Formalization Matters in Winograd Schema Evaluations
- Title(参考訳): ウィノグラードスキーマ評価におけるタスクの精密化
- Authors: Haokun Liu, William Huang, Dhara A. Mungra, Samuel R. Bowman
- Abstract要約: ウィノグラードチャレンジのパフォーマンスは、偶然の正確さからスーパーGLUEのリーダーボードの89%まで向上した。
この改善の多くは、タスクの形式化の最近の変化によるものだと仮定する。
- 参考スコア(独自算出の注目度): 28.949399736177526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Performance on the Winograd Schema Challenge (WSC), a respected English
commonsense reasoning benchmark, recently rocketed from chance accuracy to 89%
on the SuperGLUE leaderboard, with relatively little corroborating evidence of
a correspondingly large improvement in reasoning ability. We hypothesize that
much of this improvement comes from recent changes in task formalization---the
combination of input specification, loss function, and reuse of pretrained
parameters---by users of the dataset, rather than improvements in the
pretrained model's reasoning ability. We perform an ablation on two Winograd
Schema datasets that interpolates between the formalizations used before and
after this surge, and find (i) framing the task as multiple choice improves
performance by 2-6 points and (ii) several additional techniques, including the
reuse of a pretrained language modeling head, can mitigate the model's extreme
sensitivity to hyperparameters. We urge future benchmark creators to impose
additional structure to minimize the impact of formalization decisions on
reported results.
- Abstract(参考訳): 英国の常識推論ベンチマークであるwinograd schema challenge(wsc)のパフォーマンスは、最近、偶然の正確さから、スーパーグルーのリーダーボード上で89%に上昇した。
この改善の多くは、事前トレーニングモデルの推論能力の改善ではなく、データセットのユーザによる、入力仕様、損失関数、および事前トレーニングパラメータの再利用の組み合わせによる、最近のタスクフォーマイゼーションの変化によるものだと仮定します。
2つのWinograd Schemaデータセット上でアブレーションを行い、このサージ前後の形式化を補間し、発見する。
(i)複数の選択としてタスクをフレーミングすることで、性能が2~6ポイント向上する
(ii)事前訓練された言語モデリングヘッドの再利用を含むいくつかの追加技術は、ハイパーパラメータに対するモデルの極端な感度を軽減することができる。
今後のベンチマーククリエーターには、報告結果に対する形式化決定の影響を最小限に抑えるため、追加構造を課すよう求めます。
関連論文リスト
- The Surprising Effectiveness of Test-Time Training for Abstract Reasoning [64.36534512742736]
モデル推論能力向上のためのメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
TTTはARCタスクのパフォーマンスを大幅に改善し、ベースとなる微調整モデルと比較して最大6倍の精度向上を実現した。
本研究は,ニューラルネットワークモデルにおける抽象的推論改善の道筋として,明示的な記号探索が唯一の道ではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-11T18:59:45Z) - Zero-Shot Embeddings Inform Learning and Forgetting with Vision-Language Encoders [6.7181844004432385]
IMM(Inter-Intra Modal Measure)は、微調整によるパフォーマンス変化の強力な予測器として機能する。
IIMMスコアの高いタスクの微調整はドメイン内のパフォーマンス向上をもたらすが、ドメイン外のパフォーマンス低下も引き起こす。
ターゲットデータの1つのフォワードパスだけで、実践者は、この重要な洞察を利用して、モデルが微調整後の改善を期待できる程度を評価することができる。
論文 参考訳(メタデータ) (2024-07-22T15:35:09Z) - FT2Ra: A Fine-Tuning-Inspired Approach to Retrieval-Augmented Code Completion [24.964973946366335]
我々は,真の微調整を模倣することを目的とした新しい検索手法FT2Raを開発した。
FT2RaはUniXcoderの最良のベースライン方式に比べて精度が4.29%向上している。
論文 参考訳(メタデータ) (2024-04-02T01:42:15Z) - EsaCL: Efficient Continual Learning of Sparse Models [10.227171407348326]
連続的な学習設定の主な課題は、以前に学習したタスクを実行する方法を忘れずに、タスクのシーケンスを効率的に学習することである。
本研究では,モデルの予測力に悪影響を及ぼすことなく,冗長なパラメータを自動生成する,スパースモデル(EsaCL)の効率的な連続学習法を提案する。
論文 参考訳(メタデータ) (2024-01-11T04:59:44Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - A Multi-dimensional Evaluation of Tokenizer-free Multilingual Pretrained
Models [87.7086269902562]
サブワードベースのモデルは、多くの設定において依然として最も実用的な選択肢であることを示している。
我々は,新しいモデルを設計し,評価する際のこれらの要因を検討するために,トークンフリーな手法の今後の取り組みを奨励する。
論文 参考訳(メタデータ) (2022-10-13T15:47:09Z) - Data Augmentation through Expert-guided Symmetry Detection to Improve
Performance in Offline Reinforcement Learning [0.0]
マルコフ決定過程(MDP)の動的モデルのオフライン推定は非自明な作業である。
近年の研究では、密度推定法に依存する専門家誘導パイプラインが、決定論的環境において、この構造を効果的に検出できることが示されている。
学習したMDPを解き、実際の環境に最適化されたポリシーを適用すると、前者の結果が性能改善につながることを示す。
論文 参考訳(メタデータ) (2021-12-18T14:32:32Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - Supervised Contrastive Learning for Pre-trained Language Model
Fine-tuning [23.00300794016583]
最先端の自然言語理解分類モデルは2段階に従う。
微調整段階に対する教師付きコントラスト学習(SCL)の目的を提案する。
提案した微調整目的は、微調整訓練データにおいて、異なるレベルのノイズに対してより堅牢なモデルに導かれる。
論文 参考訳(メタデータ) (2020-11-03T01:10:39Z) - Contrast and Classify: Training Robust VQA Models [60.80627814762071]
本稿では,クロスエントロピーとコントラスト損失の両方を最適化する新しいトレーニングパラダイム(ConClaT)を提案する。
双方の損失を -- 交互に,あるいは共同で -- 最適化することが,効果的なトレーニングの鍵であることに気付きました。
論文 参考訳(メタデータ) (2020-10-13T00:23:59Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。