論文の概要: Data Factors for Better Compositional Generalization
- arxiv url: http://arxiv.org/abs/2311.04420v1
- Date: Wed, 8 Nov 2023 01:27:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 17:15:43.047443
- Title: Data Factors for Better Compositional Generalization
- Title(参考訳): より良い構成一般化のためのデータ因子
- Authors: Xiang Zhou, Yichen Jiang, Mohit Bansal
- Abstract要約: 我々は、異なるデータ要素を持つ様々なトレーニングセット上で、Transformerモデルをトレーニングすることで、経験的分析を行う。
データセットの複雑さが増大すると、複数の異なる一般化課題におけるより優れた一般化行動がもたらされることを示す。
難易度の異なるトレーニング例が一般化にどう影響するかを考察する。
- 参考スコア(独自算出の注目度): 60.698130703909804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent diagnostic datasets on compositional generalization, such as SCAN
(Lake and Baroni, 2018) and COGS (Kim and Linzen, 2020), expose severe problems
in models trained from scratch on these datasets. However, in contrast to this
poor performance, state-of-the-art models trained on larger and more general
datasets show better generalization ability. In this work, to reconcile this
inconsistency, we conduct an empirical analysis by training Transformer models
on a variety of training sets with different data factors, including dataset
scale, pattern complexity, example difficulty, etc. First, we show that
increased dataset complexity can lead to better generalization behavior on
multiple different generalization challenges. To further understand this
improvement, we show two axes of the benefit from more complex datasets: they
provide more diverse examples so compositional understanding becomes more
effective, and they also prevent ungeneralizable memorization of the examples
due to reduced example repetition frequency. Finally, we explore how training
examples of different difficulty levels influence generalization differently.
On synthetic datasets, simple examples invoke stronger compositionality than
hard examples do. On larger-scale real language datasets, while hard examples
become more important potentially to ensure decent data coverage, a balanced
mixture of simple and hard examples manages to induce the strongest
generalizability. The code and data for this work are available at
https://github.com/owenzx/data4comp
- Abstract(参考訳): 最近、SCAN (Lake and Baroni, 2018) やCOGS (Kim and Linzen, 2020) のような構成一般化に関する診断データセットは、これらのデータセットをスクラッチからトレーニングしたモデルの深刻な問題を露呈している。
しかし、この貧弱なパフォーマンスとは対照的に、より大規模で一般的なデータセットでトレーニングされた最先端のモデルは、より良い一般化能力を示している。
本研究では,この不整合を解消するために,データセットスケール,パターン複雑性,サンプル難易度など,さまざまなデータファクタを持つトレーニングセット上でトランスフォーマモデルをトレーニングすることにより,経験的分析を行う。
まず、データセットの複雑さが増大すると、複数の異なる一般化課題におけるより優れた一般化行動がもたらされることを示す。
この改善をさらに理解するために、より複雑なデータセットの利点の2つの軸を示す: それらはより多様な例を提供し、構成的理解をより効果的にする。
最後に、異なる難易度のトレーニング例が一般化にどう影響するかを考察する。
合成データセットでは、単純な例は硬い例よりも強い構成性を呼び起こす。
大規模な実言語データセットでは、適切なデータカバレッジを確保する上で、難しい例がより重要になる一方で、シンプルでハードな例のバランスのとれた混合によって、最強の一般化可能性が引き起こされる。
この作業のコードとデータはhttps://github.com/owenzx/data4compで入手できる。
関連論文リスト
- The Unreasonable Effectiveness of Easy Training Data for Hard Tasks [92.09189936205253]
現在の言語モデルは、ハードデータで訓練された"オークル"モデルと同様に、比較的容易にハードデータから一般化されることが多い。
ハードデータ上でモデルパフォーマンスを最も気にしている場合でも、ハードデータよりも簡単なデータを収集してトレーニングする方がよいことを示す。
論文 参考訳(メタデータ) (2024-01-12T18:36:29Z) - Simplicity Bias Leads to Amplified Performance Disparities [8.60453031364566]
SGDで訓練されたモデルは、単純さに偏りがあることを示し、多数派の学習を優先させる。
モデルは、単純なデータセットのクラスやグループを優先順位付けし、複雑なものを見つけることを犠牲にすることができる。
論文 参考訳(メタデータ) (2022-12-13T15:24:41Z) - Split-PU: Hardness-aware Training Strategy for Positive-Unlabeled
Learning [42.26185670834855]
Positive-Unlabeled (PU) 学習は、稀な正のサンプルと豊富な未ラベルサンプルを持つモデルを学ぶことを目的としている。
本稿では、新しいトレーニングパイプラインを用いて、一般的に使われているnnPUの改善に焦点を当てる。
論文 参考訳(メタデータ) (2022-11-30T05:48:31Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - Evading the Simplicity Bias: Training a Diverse Set of Models Discovers
Solutions with Superior OOD Generalization [93.8373619657239]
SGDで訓練されたニューラルネットワークは最近、線形予測的特徴に優先的に依存することが示された。
この単純さバイアスは、分布外堅牢性(OOD)の欠如を説明することができる。
単純さのバイアスを軽減し,ood一般化を改善できることを実証する。
論文 参考訳(メタデータ) (2021-05-12T12:12:24Z) - On the Pitfalls of Learning with Limited Data: A Facial Expression
Recognition Case Study [0.5249805590164901]
私達はビデオからの顔表現の認識の問題に焦点を合わせます。
4つのデータベースを異なる複雑さで,9つのディープラーニングアーキテクチャで動画分類を行った。
複雑なトレーニングセットは、トランスファーラーニングと合成生成データでトレーニングすると、より安定したテストセットによく変換されます。
論文 参考訳(メタデータ) (2021-04-02T18:53:41Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z) - A Close Look at Deep Learning with Small Data [0.0]
モデル複雑性は、クラス毎に数個のサンプルしか利用できない場合に重要な要素であることを示す。
また、標準的なデータ拡張であっても、認識性能を大きなマージンで向上させることができることを示す。
論文 参考訳(メタデータ) (2020-03-28T17:11:29Z) - Robust and On-the-fly Dataset Denoising for Image Classification [72.10311040730815]
On-the-fly Data Denoising (ODD)は、間違ったラベルの例に対して堅牢だが、通常のトレーニングと比べて計算オーバーヘッドはほぼゼロである。
ODDはWebVisionやClothing1Mといった現実世界のデータセットを含む、幅広いデータセットで最先端の結果を達成することができる。
論文 参考訳(メタデータ) (2020-03-24T03:59:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。