論文の概要: Trusting RoBERTa over BERT: Insights from CheckListing the Natural
Language Inference Task
- arxiv url: http://arxiv.org/abs/2107.07229v1
- Date: Thu, 15 Jul 2021 10:08:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-16 21:54:29.599152
- Title: Trusting RoBERTa over BERT: Insights from CheckListing the Natural
Language Inference Task
- Title(参考訳): RoBERTa over BERT: CheckListing the Natural Language Inference Task
- Authors: Ishan Tarunesh, Somak Aditya and Monojit Choudhury
- Abstract要約: 自然言語推論(NLI)タスク用のCheckListテストスーツ(184K例)を作成します。
本稿では, BERT と RoBERTa の推理能力に関する詳細な知見を明らかにする。
- 参考スコア(独自算出の注目度): 9.677922629100859
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent state-of-the-art natural language understanding (NLU) systems
often behave unpredictably, failing on simpler reasoning examples. Despite
this, there has been limited focus on quantifying progress towards systems with
more predictable behavior. We think that reasoning capability-wise behavioral
summary is a step towards bridging this gap. We create a CheckList test-suite
(184K examples) for the Natural Language Inference (NLI) task, a representative
NLU task. We benchmark state-of-the-art NLI systems on this test-suite, which
reveals fine-grained insights into the reasoning abilities of BERT and RoBERTa.
Our analysis further reveals inconsistencies of the models on examples derived
from the same template or distinct templates but pertaining to same reasoning
capability, indicating that generalizing the models' behavior through
observations made on a CheckList is non-trivial. Through an user-study, we find
that users were able to utilize behavioral information to generalize much
better for examples predicted from RoBERTa, compared to that of BERT.
- Abstract(参考訳): 最近のnlu(state-of-the-art natural language understanding)システムは予測不能に振る舞うことが多い。
それにもかかわらず、より予測可能な振る舞いを持つシステムへの進歩の定量化に焦点が限定されている。
推論能力に関する行動要約は、このギャップを埋めるための一歩だと考えています。
自然言語推論(NLI)タスクのCheckListテストスーツ(184K例)を代表的NLUタスクとして作成する。
本稿では, BERT と RoBERTa の推論能力に関する詳細な知見を明らかにする。
分析の結果,同一のテンプレートや別個のテンプレートから抽出したモデルと同一の推論能力を持つモデルとの矛盾が明らかとなり,CheckList上での観察によるモデル動作の一般化は容易ではないことが示された。
ユーザスタディにより、ユーザが行動情報を利用してRoBERTaから予測された例を、BERTと比較してはるかによく一般化できることがわかった。
関連論文リスト
- DISCO: DISCovering Overfittings as Causal Rules for Text Classification Models [6.369258625916601]
ポストホックの解釈可能性法は、モデルの意思決定プロセスを完全に捉えるのに失敗する。
本稿では,グローバルなルールベースの説明を見つけるための新しい手法であるdisCOを紹介する。
DISCOは対話的な説明をサポートし、人間の検査者がルールベースの出力で突発的な原因を区別できるようにする。
論文 参考訳(メタデータ) (2024-11-07T12:12:44Z) - SYNTHEVAL: Hybrid Behavioral Testing of NLP Models with Synthetic CheckLists [59.08999823652293]
我々は,NLPモデルの包括的評価のために,SyntheVALを提案する。
最後の段階では、人間の専門家が困難な例を調査し、手動でテンプレートを設計し、タスク固有のモデルが一貫して示す障害の種類を特定します。
我々は、感情分析と有害言語検出という2つの分類課題にSynTHEVALを適用し、これらの課題における強力なモデルの弱点を特定するのに、我々のフレームワークが有効であることを示す。
論文 参考訳(メタデータ) (2024-08-30T17:41:30Z) - GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech Detection? [50.53312866647302]
HateCheckは、合成データに対してきめ細かいモデル機能をテストするスイートである。
GPT-HateCheckは,スクラッチからより多彩で現実的な機能テストを生成するフレームワークである。
クラウドソースのアノテーションは、生成されたテストケースが高品質であることを示しています。
論文 参考訳(メタデータ) (2024-02-23T10:02:01Z) - WeCheck: Strong Factual Consistency Checker via Weakly Supervised
Learning [40.5830891229718]
本稿では,複数のリソースを集約して,正確かつ効率的な実測値(WeCheck)をトレーニングする,弱教師付きフレームワークを提案する。
様々なタスクに関する総合的な実験は、平均してTRUEベンチマークにおける従来の最先端手法よりも3.4%の絶対的な改善を実現するWeCheckの強い性能を示す。
論文 参考訳(メタデータ) (2022-12-20T08:04:36Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z) - Unnatural Language Inference [48.45003475966808]
我々は、RoBERTaやBARTのような最先端のNLIモデルは、ランダムに並べ替えられた単語の例に不変であり、時にはよりよく機能することさえあります。
我々の発見は、自然言語理解モデルと、その進捗を測定するために使われるタスクが、本当に人間のような構文理解を必要とするという考えに疑問を投げかけている。
論文 参考訳(メタデータ) (2020-12-30T20:40:48Z) - Explaining and Improving Model Behavior with k Nearest Neighbor
Representations [107.24850861390196]
モデルの予測に責任のあるトレーニング例を特定するために, k 近傍表現を提案する。
我々は,kNN表現が学習した素因関係を明らかにするのに有効であることを示す。
以上の結果から,kNN手法により,直交モデルが逆入力に対してより堅牢であることが示唆された。
論文 参考訳(メタデータ) (2020-10-18T16:55:25Z) - Beyond Accuracy: Behavioral Testing of NLP models with CheckList [66.42971817954806]
CheckList は NLP モデルをテストするためのタスクに依存しない方法論である。
CheckListには、包括的なテストのアイデアを促進する一般的な言語機能とテストタイプのマトリックスが含まれている。
ユーザスタディでは、CheckListのNLP実践者が2倍の数のテストを作成し、それのないユーザの約3倍のバグを発見しました。
論文 参考訳(メタデータ) (2020-05-08T15:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。