論文の概要: Do Fine-tuned Commonsense Language Models Really Generalize?
- arxiv url: http://arxiv.org/abs/2011.09159v1
- Date: Wed, 18 Nov 2020 08:52:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 03:18:21.109891
- Title: Do Fine-tuned Commonsense Language Models Really Generalize?
- Title(参考訳): 微調整コモンセンス言語モデルは本当に一般化されるか?
- Authors: Mayank Kejriwal and Ke Shen
- Abstract要約: 厳密な科学的研究を設計・実施することで、一般化問題を詳細に研究する。
実験装置の適度な変更があっても、微調整されたコモンセンス言語モデルがまだうまく一般化していないという明確な証拠が得られます。
- 参考スコア(独自算出の注目度): 8.591839265985412
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, transformer-based methods such as RoBERTa and GPT-3 have led to
significant experimental advances in natural language processing tasks such as
question answering and commonsense reasoning. The latter is typically evaluated
through multiple benchmarks framed as multiple-choice instances of the former.
According to influential leaderboards hosted by the Allen Institute (evaluating
state-of-the-art performance on commonsense reasoning benchmarks), models based
on such transformer methods are approaching human-like performance and have
average accuracy well over 80% on many benchmarks. Since these are commonsense
benchmarks, a model that generalizes on commonsense reasoning should not
experience much performance loss across multiple commonsense benchmarks. In
this paper, we study the generalization issue in detail by designing and
conducting a rigorous scientific study. Using five common benchmarks, multiple
controls and statistical analysis, we find clear evidence that fine-tuned
commonsense language models still do not generalize well, even with moderate
changes to the experimental setup, and may, in fact, be susceptible to dataset
bias. We also perform selective studies, including qualitative and consistency
analyses, to gain deeper insight into the problem.
- Abstract(参考訳): 近年,RoBERTaやGPT-3のようなトランスフォーマーベースの手法は,質問応答やコモンセンス推論などの自然言語処理タスクにおいて,大きな実験的進歩をもたらしている。
後者は通常、複数のベンチマークを通じて、前者の複数選択インスタンスとして評価される。
allen institute(commonsense reasoning benchmarksにおける最先端のパフォーマンスの評価)がホストする影響力のあるリーダボードによると、このようなトランスフォーマーメソッドに基づくモデルは、人間的なパフォーマンスに近づいており、多くのベンチマークで平均精度は80%以上である。
これらはcommonsenseベンチマークであるため、commonsense推論を一般化したモデルは、複数のcommonsenseベンチマークでパフォーマンス損失を多く経験するべきではない。
本稿では,厳密な科学的研究を設計・実施することで,一般化問題を詳細に研究する。
5つの共通ベンチマーク、複数の制御、統計分析を用いて、微調整されたコモンセンス言語モデルが実験装置に適度な変更を加えても、まだ十分に一般化できないという明確な証拠を見つけ、実際はデータセットバイアスの影響を受けやすいかもしれない。
また,質的・一貫性的分析を含む選択的研究を行い,より深い知見を得た。
関連論文リスト
- BetterBench: Assessing AI Benchmarks, Uncovering Issues, and Establishing Best Practices [28.70453947993952]
我々は、AIベンチマークのライフサイクル全体で46のベストプラクティスを検討し、それに対して24のAIベンチマークを評価するアセスメントフレームワークを開発した。
私たちは、大きな品質差があり、よく使われるベンチマークが重大な問題に悩まされていることに気付きました。
論文 参考訳(メタデータ) (2024-11-20T02:38:24Z) - Using Counterfactual Tasks to Evaluate the Generality of Analogical
Reasoning in Large Language Models [7.779982757267302]
大型言語モデル(LLMs)において従来主張されていた類推能力の一般性について検討する。
すべての問題に対して人間のパフォーマンスは高いままであるが、GPTモデルの性能は反ファクトセットで急激に低下している。
論文 参考訳(メタデータ) (2024-02-14T05:52:23Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Benchmarks for Automated Commonsense Reasoning: A Survey [0.0]
AIシステムの常識知識と常識推論能力をテストするために、100以上のベンチマークが開発されている。
本稿では,AIコモンセンスベンチマークの開発と利用について検討する。
論文 参考訳(メタデータ) (2023-02-09T16:34:30Z) - Predicting Out-of-Domain Generalization with Neighborhood Invariance [59.05399533508682]
局所変換近傍における分類器の出力不変性の尺度を提案する。
私たちの測度は計算が簡単で、テストポイントの真のラベルに依存しません。
画像分類,感情分析,自然言語推論のベンチマーク実験において,我々の測定値と実際のOOD一般化との間に強い相関関係を示す。
論文 参考訳(メタデータ) (2022-07-05T14:55:16Z) - What do Toothbrushes do in the Kitchen? How Transformers Think our World
is Structured [137.83584233680116]
本稿では,トランスフォーマーに基づく言語モデルがオブジェクト関係に関する知識を抽出するのにどの程度役立つかを検討する。
異なる類似度尺度と組み合わせたモデルが,抽出できる知識の量で大きく異なることを示す。
驚くべきことに、静的モデルは、コンテキスト化されたモデルと同様に、ほぼ同じようにパフォーマンスします。
論文 参考訳(メタデータ) (2022-04-12T10:00:20Z) - A Theoretically Grounded Benchmark for Evaluating Machine Commonsense [6.725087407394836]
理論的に答えるコモンセンス推論(TG-CSR)は差別的な質問応答に基づいているが、コモンセンスの多様な側面を評価するために設計された。
TG-CSRは、ゴードンとホッブズによるコモンセンスの実行可能な理論として最初に提案されたコモンセンス圏のサブセットに基づいている。
予備的な結果は、このベンチマークが差別的なCSR質問応答タスクのために設計された高度な言語表現モデルに対してさえ挑戦的であることを示唆している。
論文 参考訳(メタデータ) (2022-03-23T04:06:01Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z) - COM2SENSE: A Commonsense Reasoning Benchmark with Complementary
Sentences [21.11065466376105]
常識推論は人間にとって直感的であるが、人工知能(AI)の長期的な課題である。
事前訓練された言語モデルの最近の進歩は、いくつかのCommonsenseベンチマークデータセットで有望な結果を示している。
本稿では,自然言語真偽文からなる新しいコモンセンス推論ベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2021-06-02T06:31:55Z) - Improving QA Generalization by Concurrent Modeling of Multiple Biases [61.597362592536896]
既存のNLPデータセットには、モデルが容易に活用できる様々なバイアスが含まれており、対応する評価セット上で高いパフォーマンスを達成することができる。
本稿では、トレーニングデータにおける複数のバイアスの同時モデリングにより、ドメイン内およびドメイン外両方のデータセットのパフォーマンスを改善するための一般的なフレームワークを提案する。
我々は,様々な領域の学習データと異なる強度の複数のバイアスを持つ抽出的質問応答の枠組みを広く評価した。
論文 参考訳(メタデータ) (2020-10-07T11:18:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。