論文の概要: Back to Square One: Bias Detection, Training and Commonsense
Disentanglement in the Winograd Schema
- arxiv url: http://arxiv.org/abs/2104.08161v1
- Date: Fri, 16 Apr 2021 15:17:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 14:25:15.929692
- Title: Back to Square One: Bias Detection, Training and Commonsense
Disentanglement in the Winograd Schema
- Title(参考訳): back to square one: winogradスキーマにおけるバイアス検出、トレーニング、コモンセンス乱れ
- Authors: Yanai Elazar, Hongming Zhang, Yoav Goldberg, Dan Roth
- Abstract要約: Winograd(WS)は、モデルの常識能力を測定するテストとして提案されている。
本稿では,WS の現在評価手法が準最適であることを示し,その評価にツイン文を用いる修正を提案する。
私たちは、WSの明らかな進歩の多くは、必ずしも常識推論の進歩を反映していないと結論付けています。
- 参考スコア(独自算出の注目度): 106.79804048131253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Winograd Schema (WS) has been proposed as a test for measuring
commonsense capabilities of models. Recently, pre-trained language model-based
approaches have boosted performance on some WS benchmarks but the source of
improvement is still not clear. We begin by showing that the current evaluation
method of WS is sub-optimal and propose a modification that makes use of twin
sentences for evaluation. We also propose two new baselines that indicate the
existence of biases in WS benchmarks. Finally, we propose a method for
evaluating WS-like sentences in a zero-shot setting and observe that popular
language models perform randomly in this setting. We conclude that much of the
apparent progress on WS may not necessarily reflect progress in commonsense
reasoning, but much of it comes from supervised data, which is not likely to
account for all the required commonsense reasoning skills and knowledge.
- Abstract(参考訳): Winograd Schema (WS) はモデルの常識能力を測定するテストとして提案されている。
最近、事前訓練された言語モデルベースのアプローチによって、一部のWSベンチマークのパフォーマンスが向上した。
まず、WS の現在の評価方法が準最適であることを示し、評価にツイン文を用いる修正を提案する。
また、WSベンチマークにおけるバイアスの存在を示す2つの新しいベースラインを提案する。
最後に,WS-like文をゼロショット設定で評価する方法を提案し,この設定で一般的な言語モデルがランダムに実行されることを観察する。
WS の明らかな進歩の多くは、必ずしもコモンセンス推論の進歩を反映しているわけではないが、その大部分が教師付きデータによるもので、必要なコモンセンス推論スキルと知識をすべて考慮していない、と結論付けています。
関連論文リスト
- Advancing Cross-Domain Generalizability in Face Anti-Spoofing: Insights, Design, and Metrics [10.631157315662607]
本稿では,ゼロショットデータ領域の一般化におけるアンチ・スプーフィング性能の向上に向けた新たな視点を提案する。
従来のフレームワイドのスプーフィング予測に先立ち、ビデオワイドの予測のためにフレームレベルの確率を集約するニュアンス付き計量計算を導入する。
最終モデルは、データセット全体で既存の最先端メソッドよりも優れています。
論文 参考訳(メタデータ) (2024-06-18T04:15:22Z) - RDumb: A simple approach that questions our progress in continual test-time adaptation [12.374649969346441]
テスト時間適応(TTA)では、事前トレーニングされたモデルをデプロイ時にデータ配布を変更するように更新することができる。
近年の長期にわたる連続的適応手法の提案と適用方法が提案されている。
最終的には、最先端の1つのメソッド以外はすべて崩壊し、非適応モデルよりもパフォーマンスが悪くなることに気付きました。
論文 参考訳(メタデータ) (2023-06-08T17:52:34Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - To Adapt or to Annotate: Challenges and Interventions for Domain
Adaptation in Open-Domain Question Answering [46.403929561360485]
オープンドメイン質問応答(ODQA)のエンドツーエンドモデルの性能について検討する。
モデルが一般化に失敗するだけでなく、高い検索スコアが解答予測の精度を低下させることもしばしばある。
終末回答F1のスコアを最大24ポイント改善するいくつかの介入手法を提案し,評価する。
論文 参考訳(メタデータ) (2022-12-20T16:06:09Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - WRENCH: A Comprehensive Benchmark for Weak Supervision [66.82046201714766]
ベンチマークは、分類とシーケンスタグ付けのための22の異なる実世界のデータセットで構成されている。
ベンチマークプラットフォームとしての有効性を示すために、100以上のメソッドの変種に対して広範な比較を行うためにベンチマークを使用します。
論文 参考訳(メタデータ) (2021-09-23T13:47:16Z) - RethinkCWS: Is Chinese Word Segmentation a Solved Task? [81.11161697133095]
中国語の単語(CWS)システムの性能は、ディープニューラルネットワークの急速な発展とともに、徐々に高水準に達している。
本稿では、私たちが達成した事柄の株式を取得し、CWSタスクに残されている事柄を再考する。
論文 参考訳(メタデータ) (2020-11-13T11:07:08Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。