論文の概要: Back to Square One: Bias Detection, Training and Commonsense
Disentanglement in the Winograd Schema
- arxiv url: http://arxiv.org/abs/2104.08161v1
- Date: Fri, 16 Apr 2021 15:17:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 14:25:15.929692
- Title: Back to Square One: Bias Detection, Training and Commonsense
Disentanglement in the Winograd Schema
- Title(参考訳): back to square one: winogradスキーマにおけるバイアス検出、トレーニング、コモンセンス乱れ
- Authors: Yanai Elazar, Hongming Zhang, Yoav Goldberg, Dan Roth
- Abstract要約: Winograd(WS)は、モデルの常識能力を測定するテストとして提案されている。
本稿では,WS の現在評価手法が準最適であることを示し,その評価にツイン文を用いる修正を提案する。
私たちは、WSの明らかな進歩の多くは、必ずしも常識推論の進歩を反映していないと結論付けています。
- 参考スコア(独自算出の注目度): 106.79804048131253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Winograd Schema (WS) has been proposed as a test for measuring
commonsense capabilities of models. Recently, pre-trained language model-based
approaches have boosted performance on some WS benchmarks but the source of
improvement is still not clear. We begin by showing that the current evaluation
method of WS is sub-optimal and propose a modification that makes use of twin
sentences for evaluation. We also propose two new baselines that indicate the
existence of biases in WS benchmarks. Finally, we propose a method for
evaluating WS-like sentences in a zero-shot setting and observe that popular
language models perform randomly in this setting. We conclude that much of the
apparent progress on WS may not necessarily reflect progress in commonsense
reasoning, but much of it comes from supervised data, which is not likely to
account for all the required commonsense reasoning skills and knowledge.
- Abstract(参考訳): Winograd Schema (WS) はモデルの常識能力を測定するテストとして提案されている。
最近、事前訓練された言語モデルベースのアプローチによって、一部のWSベンチマークのパフォーマンスが向上した。
まず、WS の現在の評価方法が準最適であることを示し、評価にツイン文を用いる修正を提案する。
また、WSベンチマークにおけるバイアスの存在を示す2つの新しいベースラインを提案する。
最後に,WS-like文をゼロショット設定で評価する方法を提案し,この設定で一般的な言語モデルがランダムに実行されることを観察する。
WS の明らかな進歩の多くは、必ずしもコモンセンス推論の進歩を反映しているわけではないが、その大部分が教師付きデータによるもので、必要なコモンセンス推論スキルと知識をすべて考慮していない、と結論付けています。
関連論文リスト
- Prior2Posterior: Model Prior Correction for Long-Tailed Learning [0.41248472494152805]
本稿では,テクティタ後部確率を用いたトレーニングモデルの有効性を正確にモデル化するための新しい手法を提案する。
提案手法は,ロングテール文献から得られた複数のベンチマークデータセットに基づいて,新しい最先端(SOTA)を実現する。
論文 参考訳(メタデータ) (2024-12-21T08:49:02Z) - Advancing Cross-Domain Generalizability in Face Anti-Spoofing: Insights, Design, and Metrics [10.631157315662607]
本稿では,ゼロショットデータ領域の一般化におけるアンチ・スプーフィング性能の向上に向けた新たな視点を提案する。
従来のフレームワイドのスプーフィング予測に先立ち、ビデオワイドの予測のためにフレームレベルの確率を集約するニュアンス付き計量計算を導入する。
最終モデルは、データセット全体で既存の最先端メソッドよりも優れています。
論文 参考訳(メタデータ) (2024-06-18T04:15:22Z) - RDumb: A simple approach that questions our progress in continual test-time adaptation [12.374649969346441]
テスト時間適応(TTA)では、事前トレーニングされたモデルをデプロイ時にデータ配布を変更するように更新することができる。
近年の長期にわたる連続的適応手法の提案と適用方法が提案されている。
最終的には、最先端の1つのメソッド以外はすべて崩壊し、非適応モデルよりもパフォーマンスが悪くなることに気付きました。
論文 参考訳(メタデータ) (2023-06-08T17:52:34Z) - Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language
Models [107.05966685291067]
テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。
TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。
クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
論文 参考訳(メタデータ) (2022-09-15T17:55:11Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - WRENCH: A Comprehensive Benchmark for Weak Supervision [66.82046201714766]
ベンチマークは、分類とシーケンスタグ付けのための22の異なる実世界のデータセットで構成されている。
ベンチマークプラットフォームとしての有効性を示すために、100以上のメソッドの変種に対して広範な比較を行うためにベンチマークを使用します。
論文 参考訳(メタデータ) (2021-09-23T13:47:16Z) - RethinkCWS: Is Chinese Word Segmentation a Solved Task? [81.11161697133095]
中国語の単語(CWS)システムの性能は、ディープニューラルネットワークの急速な発展とともに、徐々に高水準に達している。
本稿では、私たちが達成した事柄の株式を取得し、CWSタスクに残されている事柄を再考する。
論文 参考訳(メタデータ) (2020-11-13T11:07:08Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。