論文の概要: The Sensitivity of Language Models and Humans to Winograd Schema
Perturbations
- arxiv url: http://arxiv.org/abs/2005.01348v2
- Date: Thu, 7 May 2020 06:48:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 00:12:39.250434
- Title: The Sensitivity of Language Models and Humans to Winograd Schema
Perturbations
- Title(参考訳): ウィノグラード・スキーマ摂動に対する言語モデルと人間の感受性
- Authors: Mostafa Abdou, Vinit Ravishankar, Maria Barrett, Yonatan Belinkov,
Desmond Elliott, Anders S{\o}gaard
- Abstract要約: 大規模事前学習型言語モデルは,人間の理解に最小限に影響を及ぼす言語摂動に敏感であることを示す。
この結果は、人間と言語モデルとの興味深い違いを浮き彫りにしている。
- 参考スコア(独自算出の注目度): 36.47219885590433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale pretrained language models are the major driving force behind
recent improvements in performance on the Winograd Schema Challenge, a widely
employed test of common sense reasoning ability. We show, however, with a new
diagnostic dataset, that these models are sensitive to linguistic perturbations
of the Winograd examples that minimally affect human understanding. Our results
highlight interesting differences between humans and language models: language
models are more sensitive to number or gender alternations and synonym
replacements than humans, and humans are more stable and consistent in their
predictions, maintain a much higher absolute performance, and perform better on
non-associative instances than associative ones. Overall, humans are correct
more often than out-of-the-box models, and the models are sometimes right for
the wrong reasons. Finally, we show that fine-tuning on a large, task-specific
dataset can offer a solution to these issues.
- Abstract(参考訳): 大規模な事前訓練型言語モデルは、共通感覚推論能力のテストであるWinograd Schema Challengeにおける最近のパフォーマンス向上の主要な推進力である。
しかし、新しい診断データセットでは、これらのモデルが人間の理解に最小限に影響を及ぼすウィノグラードの例の言語摂動に敏感であることが示されている。
言語モデルは、人間よりも数や性別の交替や同義語置換に敏感であり、人間は予測においてより安定的で一貫性があり、絶対的なパフォーマンスを保ち、連想しないものよりも非連想的なインスタンスでより優れたパフォーマンスを発揮する。
全体として、人間は既定のモデルよりも正確であり、そのモデルが間違った理由のために正しい場合もあります。
最後に、大きなタスク固有のデータセットの微調整によって、これらの問題に対する解決策が得られることを示します。
関連論文リスト
- DevBench: A multimodal developmental benchmark for language learning [0.34129029452670606]
タスクと行動データに基づいて視覚言語モデルを評価するベンチマークであるDevBenchを紹介する。
DevBenchは、モデルを人間の言語開発と比較するためのベンチマークを提供する。
これらの比較は、モデルと人間の言語学習プロセスの分岐方法を強調する。
論文 参考訳(メタデータ) (2024-06-14T17:49:41Z) - Turning large language models into cognitive models [0.0]
大規模言語モデルが認知モデルに変換可能であることを示す。
これらのモデルは人間の行動の正確な表現を提供し、2つの意思決定領域において従来の認知モデルよりも優れている。
これらの結果は、大規模で事前学習されたモデルが一般的な認知モデルに適応できることを示唆している。
論文 参考訳(メタデータ) (2023-06-06T18:00:01Z) - Towards preserving word order importance through Forced Invalidation [80.33036864442182]
事前学習された言語モデルは単語の順序に敏感であることを示す。
我々は,単語順序の重要性を維持するために強制的無効化を提案する。
実験の結果,強制的無効化は単語順に対するモデルの感度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-04-11T13:42:10Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z) - Rarely a problem? Language models exhibit inverse scaling in their
predictions following few-type quantifiers [0.6091702876917281]
言語モデルにおいて特に課題となる「おもちゃのような2人の子供」のような「2つの」型の量化器に焦点をあてる。
人間の2つの神経言語実験から、異なる大きさの22個の自己回帰トランスフォーマーモデルまで、960の英語文刺激を提示する。
論文 参考訳(メタデータ) (2022-12-16T20:01:22Z) - A fine-grained comparison of pragmatic language understanding in humans
and language models [2.231167375820083]
言語モデルと人間を7つの現実的な現象で比較する。
最大のモデルでは精度が高く,人間の誤りパターンと一致していることがわかった。
モデルと人間が同様の言語的手がかりに敏感であるという予備的な証拠がある。
論文 参考訳(メタデータ) (2022-12-13T18:34:59Z) - Scaling Language Models: Methods, Analysis & Insights from Training
Gopher [83.98181046650664]
本稿では,トランスフォーマーに基づく言語モデルの性能を,幅広いモデルスケールで解析する。
スケールからのゲインは、理解、事実確認、有害言語の同定などにおいて最大である。
我々は、AIの安全性と下流の害の軽減に対する言語モデルの適用について論じる。
論文 参考訳(メタデータ) (2021-12-08T19:41:47Z) - A Targeted Assessment of Incremental Processing in Neural LanguageModels
and Humans [2.7624021966289605]
本稿では,人間とニューラル言語モデルにおけるインクリメンタル処理のスケールアップ比較について述べる。
データはInterpolated Maze Taskと呼ばれる新しいオンライン実験パラダイムに由来する。
人間と言語モデルの両方が、非文法的な文領域における処理困難を増大させていることが判明した。
論文 参考訳(メタデータ) (2021-06-06T20:04:39Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。