Fugu-MT 論文翻訳(概要): Back to Square One: Bias Detection, Training and Commonsense Disentanglement in the Winograd Schema

論文の概要: Back to Square One: Bias Detection, Training and Commonsense Disentanglement in the Winograd Schema

arxiv url: http://arxiv.org/abs/2104.08161v1
Date: Fri, 16 Apr 2021 15:17:23 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-19 14:25:15.929692
Title: Back to Square One: Bias Detection, Training and Commonsense Disentanglement in the Winograd Schema
Title（参考訳）: back to square one: winogradスキーマにおけるバイアス検出、トレーニング、コモンセンス乱れ
Authors: Yanai Elazar, Hongming Zhang, Yoav Goldberg, Dan Roth
Abstract要約: Winograd(WS)は、モデルの常識能力を測定するテストとして提案されている。本稿では,WS の現在評価手法が準最適であることを示し,その評価にツイン文を用いる修正を提案する。私たちは、WSの明らかな進歩の多くは、必ずしも常識推論の進歩を反映していないと結論付けています。
参考スコア（独自算出の注目度）: 106.79804048131253
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The Winograd Schema (WS) has been proposed as a test for measuring commonsense capabilities of models. Recently, pre-trained language model-based approaches have boosted performance on some WS benchmarks but the source of improvement is still not clear. We begin by showing that the current evaluation method of WS is sub-optimal and propose a modification that makes use of twin sentences for evaluation. We also propose two new baselines that indicate the existence of biases in WS benchmarks. Finally, we propose a method for evaluating WS-like sentences in a zero-shot setting and observe that popular language models perform randomly in this setting. We conclude that much of the apparent progress on WS may not necessarily reflect progress in commonsense reasoning, but much of it comes from supervised data, which is not likely to account for all the required commonsense reasoning skills and knowledge.
Abstract（参考訳）: Winograd Schema (WS) はモデルの常識能力を測定するテストとして提案されている。最近、事前訓練された言語モデルベースのアプローチによって、一部のWSベンチマークのパフォーマンスが向上した。まず、WS の現在の評価方法が準最適であることを示し、評価にツイン文を用いる修正を提案する。また、WSベンチマークにおけるバイアスの存在を示す2つの新しいベースラインを提案する。最後に,WS-like文をゼロショット設定で評価する方法を提案し,この設定で一般的な言語モデルがランダムに実行されることを観察する。 WS の明らかな進歩の多くは、必ずしもコモンセンス推論の進歩を反映しているわけではないが、その大部分が教師付きデータによるもので、必要なコモンセンス推論スキルと知識をすべて考慮していない、と結論付けています。

関連論文リスト

Bayesian Test-Time Adaptation for Vision-Language Models [51.93247610195295]
CLIPのような事前訓練された視覚言語モデルによるテスト時適応は、新しい、潜在的に配布外テストデータにモデルを適応させることを目的としている。我々は、クラス埋め込みを継続的に更新して妥当性を適応させる新しいアプローチ、textbfBayesian textbfClass textbfAdaptation (BCA)を提案する。
論文参考訳（メタデータ） (2025-03-12T10:42:11Z)
Prior2Posterior: Model Prior Correction for Long-Tailed Learning [0.41248472494152805]
本稿では,テクティタ後部確率を用いたトレーニングモデルの有効性を正確にモデル化するための新しい手法を提案する。提案手法は,ロングテール文献から得られた複数のベンチマークデータセットに基づいて,新しい最先端(SOTA)を実現する。
論文参考訳（メタデータ） (2024-12-21T08:49:02Z)
Advancing Cross-Domain Generalizability in Face Anti-Spoofing: Insights, Design, and Metrics [10.631157315662607]
本稿では,ゼロショットデータ領域の一般化におけるアンチ・スプーフィング性能の向上に向けた新たな視点を提案する。従来のフレームワイドのスプーフィング予測に先立ち、ビデオワイドの予測のためにフレームレベルの確率を集約するニュアンス付き計量計算を導入する。最終モデルは、データセット全体で既存の最先端メソッドよりも優れています。
論文参考訳（メタデータ） (2024-06-18T04:15:22Z)
RDumb: A simple approach that questions our progress in continual test-time adaptation [12.374649969346441]
テスト時間適応(TTA)では、事前トレーニングされたモデルをデプロイ時にデータ配布を変更するように更新することができる。近年の長期にわたる連続的適応手法の提案と適用方法が提案されている。最終的には、最先端の1つのメソッド以外はすべて崩壊し、非適応モデルよりもパフォーマンスが悪くなることに気付きました。
論文参考訳（メタデータ） (2023-06-08T17:52:34Z)
Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文参考訳（メタデータ） (2023-05-23T12:05:09Z)
To Adapt or to Annotate: Challenges and Interventions for Domain Adaptation in Open-Domain Question Answering [46.403929561360485]
オープンドメイン質問応答(ODQA)のエンドツーエンドモデルの性能について検討する。モデルが一般化に失敗するだけでなく、高い検索スコアが解答予測の精度を低下させることもしばしばある。終末回答F1のスコアを最大24ポイント改善するいくつかの介入手法を提案し,評価する。
論文参考訳（メタデータ） (2022-12-20T16:06:09Z)
A Closer Look at Debiased Temporal Sentence Grounding in Videos: Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文参考訳（メタデータ） (2022-03-10T08:58:18Z)
WRENCH: A Comprehensive Benchmark for Weak Supervision [66.82046201714766]
ベンチマークは、分類とシーケンスタグ付けのための22の異なる実世界のデータセットで構成されている。ベンチマークプラットフォームとしての有効性を示すために、100以上のメソッドの変種に対して広範な比較を行うためにベンチマークを使用します。
論文参考訳（メタデータ） (2021-09-23T13:47:16Z)
RethinkCWS: Is Chinese Word Segmentation a Solved Task? [81.11161697133095]
中国語の単語(CWS)システムの性能は、ディープニューラルネットワークの急速な発展とともに、徐々に高水準に達している。本稿では、私たちが達成した事柄の株式を取得し、CWSタスクに残されている事柄を再考する。
論文参考訳（メタデータ） (2020-11-13T11:07:08Z)
Pre-training Is (Almost) All You Need: An Application to Commonsense Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文参考訳（メタデータ） (2020-04-29T10:54:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。