論文の概要: Generalization in NLI: Ways (Not) To Go Beyond Simple Heuristics
- arxiv url: http://arxiv.org/abs/2110.01518v1
- Date: Mon, 4 Oct 2021 15:37:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-05 15:36:56.429861
- Title: Generalization in NLI: Ways (Not) To Go Beyond Simple Heuristics
- Title(参考訳): NLIの一般化:単純なヒューリスティックスを超える方法(ノー)
- Authors: Prajjwal Bhargava, Aleksandr Drozd, Anna Rogers
- Abstract要約: BERTアーキテクチャにおけるNLIの一般化のケーススタディを行う。
2つの成功と3つの失敗戦略を報告し、いずれもTransformerベースのモデルがどのように一般化するかについての洞察を提供する。
- 参考スコア(独自算出の注目度): 78.6177778161625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Much of recent progress in NLU was shown to be due to models' learning
dataset-specific heuristics. We conduct a case study of generalization in NLI
(from MNLI to the adversarially constructed HANS dataset) in a range of
BERT-based architectures (adapters, Siamese Transformers, HEX debiasing), as
well as with subsampling the data and increasing the model size. We report 2
successful and 3 unsuccessful strategies, all providing insights into how
Transformer-based models learn to generalize.
- Abstract(参考訳): nluの最近の進歩の多くは、モデルの学習データセット固有のヒューリスティックによるものであることが示されている。
我々は, BERT ベースのアーキテクチャ(アダプタ, シームズ変換器, HEXデバイアス)における NLI (MNLI から HANS データセットまで) の一般化のケーススタディを行い, データをサブサンプリングし, モデルサイズを増大させた。
2つの成功戦略と3つの失敗戦略を報告し、トランスフォーマベースのモデルがどのように一般化するかについての洞察を提供する。
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Language Models are Graph Learners [70.14063765424012]
言語モデル(LM)は、グラフニューラルネットワーク(GNN)やグラフトランスフォーマー(GT)など、ドメイン固有のモデルの優位性に挑戦している。
本稿では,ノード分類タスクにおける最先端のGNNに匹敵する性能を実現するために,既製のLMを有効活用する手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T08:27:54Z) - Improved Generalization Bounds for Communication Efficient Federated Learning [4.3707341422218215]
本稿では,一般化境界の探索と表現学習によるフェデレーション学習の通信コストの低減に焦点をあてる。
我々は、一般化境界と表現学習分析に基づいて、適応的局所ステップ付きフェデレートラーニング(FedALS)アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-04-17T21:17:48Z) - N-Grammer: Augmenting Transformers with latent n-grams [35.39961549040385]
本稿では,テキストシーケンスの離散潜在表現から構築したn-gramでモデルを拡張することにより,統計言語モデリングの文献に触発されたトランスフォーマーアーキテクチャの簡易かつ効果的な変更を提案する。
我々は、C4データセットの言語モデリングにおけるN-GrammerモデルとSuperGLUEデータセットのテキスト分類を評価し、TransformerやPrimerといった強力なベースラインよりも優れていることを発見した。
論文 参考訳(メタデータ) (2022-07-13T17:18:02Z) - Learning Contextual Representations for Semantic Parsing with
Generation-Augmented Pre-Training [86.91380874390778]
本稿では,生成モデルを活用して事前学習データを生成することで,自然言語発話と表スキーマの表現を共同で学習するGAPを提案する。
実験結果に基づいて、GAP MODELを利用するニューラルセマンティクスは、SPIDERとCRITERIA-to-generationベンチマークの両方で最新の結果を得る。
論文 参考訳(メタデータ) (2020-12-18T15:53:50Z) - Generative Adversarial Networks for Annotated Data Augmentation in Data
Sparse NLU [0.76146285961466]
データスパーシティは、自然言語理解におけるモデル開発に関連する重要な課題の1つです。
GAN (Sequence Generative Adversarial Network) を用いたトレーニングデータ拡張によるNLUモデルの性能向上について報告する。
本実験により, 逐次生成逆数ネットワークを用いて生成した合成データにより, 複数の指標間で大きな性能向上が得られた。
論文 参考訳(メタデータ) (2020-12-09T20:38:17Z) - KGPT: Knowledge-Grounded Pre-Training for Data-to-Text Generation [100.79870384880333]
知識に富んだテキストを生成するための知識基盤事前学習(KGPT)を提案する。
我々は、その効果を評価するために、3つの設定、すなわち、完全教師付き、ゼロショット、少数ショットを採用します。
ゼロショット設定では、WebNLG上で30 ROUGE-L以上を達成するが、他の全てのベースラインは失敗する。
論文 参考訳(メタデータ) (2020-10-05T19:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。