論文の概要: Back to Square One: Bias Detection, Training and Commonsense
Disentanglement in the Winograd Schema
- arxiv url: http://arxiv.org/abs/2104.08161v1
- Date: Fri, 16 Apr 2021 15:17:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 14:25:15.929692
- Title: Back to Square One: Bias Detection, Training and Commonsense
Disentanglement in the Winograd Schema
- Title(参考訳): back to square one: winogradスキーマにおけるバイアス検出、トレーニング、コモンセンス乱れ
- Authors: Yanai Elazar, Hongming Zhang, Yoav Goldberg, Dan Roth
- Abstract要約: Winograd(WS)は、モデルの常識能力を測定するテストとして提案されている。
本稿では,WS の現在評価手法が準最適であることを示し,その評価にツイン文を用いる修正を提案する。
私たちは、WSの明らかな進歩の多くは、必ずしも常識推論の進歩を反映していないと結論付けています。
- 参考スコア(独自算出の注目度): 106.79804048131253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Winograd Schema (WS) has been proposed as a test for measuring
commonsense capabilities of models. Recently, pre-trained language model-based
approaches have boosted performance on some WS benchmarks but the source of
improvement is still not clear. We begin by showing that the current evaluation
method of WS is sub-optimal and propose a modification that makes use of twin
sentences for evaluation. We also propose two new baselines that indicate the
existence of biases in WS benchmarks. Finally, we propose a method for
evaluating WS-like sentences in a zero-shot setting and observe that popular
language models perform randomly in this setting. We conclude that much of the
apparent progress on WS may not necessarily reflect progress in commonsense
reasoning, but much of it comes from supervised data, which is not likely to
account for all the required commonsense reasoning skills and knowledge.
- Abstract(参考訳): Winograd Schema (WS) はモデルの常識能力を測定するテストとして提案されている。
最近、事前訓練された言語モデルベースのアプローチによって、一部のWSベンチマークのパフォーマンスが向上した。
まず、WS の現在の評価方法が準最適であることを示し、評価にツイン文を用いる修正を提案する。
また、WSベンチマークにおけるバイアスの存在を示す2つの新しいベースラインを提案する。
最後に,WS-like文をゼロショット設定で評価する方法を提案し,この設定で一般的な言語モデルがランダムに実行されることを観察する。
WS の明らかな進歩の多くは、必ずしもコモンセンス推論の進歩を反映しているわけではないが、その大部分が教師付きデータによるもので、必要なコモンセンス推論スキルと知識をすべて考慮していない、と結論付けています。
関連論文リスト
- MMBench: Is Your Multi-modal Model an All-around Player? [117.53230227207521]
大規模な視覚言語モデルを評価する方法は依然として大きな障害であり、将来のモデル開発を妨げる。
従来のベンチマークは、定量的なパフォーマンス測定を提供するが、きめ細かい能力評価と非破壊評価の指標が欠如している。
近年のOwlEvalのような主観的ベンチマークは、人間の労働を取り入れたモデル能力の包括的な評価を提供するが、それらはスケーラブルではなく、重大なバイアスを示す。
MMBenchは、視覚言語モデルの様々な能力を頑健に評価するための、体系的に設計された客観的ベンチマークである。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z) - RDumb: A simple approach that questions our progress in continual
test-time adaptation [11.538463383075694]
テスト時間適応(TTA)では、事前トレーニングされたモデルをデプロイ時にデータ配布を変更するように更新することができる。
近年の長期にわたる連続的適応手法の提案と適用方法が提案されている。
最終的には、最先端の1つのメソッド以外はすべて崩壊し、非適応モデルよりもパフォーマンスが悪くなることに気付きました。
論文 参考訳(メタデータ) (2023-06-08T17:52:34Z) - To Adapt or to Annotate: Challenges and Interventions for Domain
Adaptation in Open-Domain Question Answering [46.403929561360485]
オープンドメイン質問応答(ODQA)のエンドツーエンドモデルの性能について検討する。
モデルが一般化に失敗するだけでなく、高い検索スコアが解答予測の精度を低下させることもしばしばある。
終末回答F1のスコアを最大24ポイント改善するいくつかの介入手法を提案し,評価する。
論文 参考訳(メタデータ) (2022-12-20T16:06:09Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - WRENCH: A Comprehensive Benchmark for Weak Supervision [66.82046201714766]
ベンチマークは、分類とシーケンスタグ付けのための22の異なる実世界のデータセットで構成されている。
ベンチマークプラットフォームとしての有効性を示すために、100以上のメソッドの変種に対して広範な比較を行うためにベンチマークを使用します。
論文 参考訳(メタデータ) (2021-09-23T13:47:16Z) - RethinkCWS: Is Chinese Word Segmentation a Solved Task? [81.11161697133095]
中国語の単語(CWS)システムの性能は、ディープニューラルネットワークの急速な発展とともに、徐々に高水準に達している。
本稿では、私たちが達成した事柄の株式を取得し、CWSタスクに残されている事柄を再考する。
論文 参考訳(メタデータ) (2020-11-13T11:07:08Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。