論文の概要: Data Factors for Better Compositional Generalization
- arxiv url: http://arxiv.org/abs/2311.04420v1
- Date: Wed, 8 Nov 2023 01:27:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 17:15:43.047443
- Title: Data Factors for Better Compositional Generalization
- Title(参考訳): より良い構成一般化のためのデータ因子
- Authors: Xiang Zhou, Yichen Jiang, Mohit Bansal
- Abstract要約: 我々は、異なるデータ要素を持つ様々なトレーニングセット上で、Transformerモデルをトレーニングすることで、経験的分析を行う。
データセットの複雑さが増大すると、複数の異なる一般化課題におけるより優れた一般化行動がもたらされることを示す。
難易度の異なるトレーニング例が一般化にどう影響するかを考察する。
- 参考スコア(独自算出の注目度): 60.698130703909804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent diagnostic datasets on compositional generalization, such as SCAN
(Lake and Baroni, 2018) and COGS (Kim and Linzen, 2020), expose severe problems
in models trained from scratch on these datasets. However, in contrast to this
poor performance, state-of-the-art models trained on larger and more general
datasets show better generalization ability. In this work, to reconcile this
inconsistency, we conduct an empirical analysis by training Transformer models
on a variety of training sets with different data factors, including dataset
scale, pattern complexity, example difficulty, etc. First, we show that
increased dataset complexity can lead to better generalization behavior on
multiple different generalization challenges. To further understand this
improvement, we show two axes of the benefit from more complex datasets: they
provide more diverse examples so compositional understanding becomes more
effective, and they also prevent ungeneralizable memorization of the examples
due to reduced example repetition frequency. Finally, we explore how training
examples of different difficulty levels influence generalization differently.
On synthetic datasets, simple examples invoke stronger compositionality than
hard examples do. On larger-scale real language datasets, while hard examples
become more important potentially to ensure decent data coverage, a balanced
mixture of simple and hard examples manages to induce the strongest
generalizability. The code and data for this work are available at
https://github.com/owenzx/data4comp
- Abstract(参考訳): 最近、SCAN (Lake and Baroni, 2018) やCOGS (Kim and Linzen, 2020) のような構成一般化に関する診断データセットは、これらのデータセットをスクラッチからトレーニングしたモデルの深刻な問題を露呈している。
しかし、この貧弱なパフォーマンスとは対照的に、より大規模で一般的なデータセットでトレーニングされた最先端のモデルは、より良い一般化能力を示している。
本研究では,この不整合を解消するために,データセットスケール,パターン複雑性,サンプル難易度など,さまざまなデータファクタを持つトレーニングセット上でトランスフォーマモデルをトレーニングすることにより,経験的分析を行う。
まず、データセットの複雑さが増大すると、複数の異なる一般化課題におけるより優れた一般化行動がもたらされることを示す。
この改善をさらに理解するために、より複雑なデータセットの利点の2つの軸を示す: それらはより多様な例を提供し、構成的理解をより効果的にする。
最後に、異なる難易度のトレーニング例が一般化にどう影響するかを考察する。
合成データセットでは、単純な例は硬い例よりも強い構成性を呼び起こす。
大規模な実言語データセットでは、適切なデータカバレッジを確保する上で、難しい例がより重要になる一方で、シンプルでハードな例のバランスのとれた混合によって、最強の一般化可能性が引き起こされる。
この作業のコードとデータはhttps://github.com/owenzx/data4compで入手できる。
関連論文リスト
- Easy2Hard-Bench: Standardized Difficulty Labels for Profiling LLM Performance and Generalization [126.27645170941268]
さまざまなドメインにまたがる6つのベンチマークデータセットのコレクションであるEasy2Hard-Benchを紹介します。
これらのデータセット内の各問題は、数値的な難易度スコアで注釈付けされる。
様々な難易度にまたがる性能と一般化能力を総合的に分析する。
論文 参考訳(メタデータ) (2024-09-27T03:49:56Z) - Towards Understanding the Relationship between In-context Learning and Compositional Generalization [7.843029855730508]
私たちは、通常の学習を非常に難しい設定で因果変換器を訓練します。
しかし、このモデルは、初期の例を利用して、後の例に一般化することで、タスクを解くことができる。
データセット、SCAN、COGS、GeoQueryの評価では、この方法でトレーニングされたモデルは、実際に合成の一般化の改善を示している。
論文 参考訳(メタデータ) (2024-03-18T14:45:52Z) - The Unreasonable Effectiveness of Easy Training Data for Hard Tasks [84.30018805150607]
既存の事前学習言語モデルが比較的容易にハードなデータから一般化されることがしばしばあるという驚くべき結論を提示する。
本稿では,テキスト内学習,線形ヘッド,QLoRAなどの簡単な微調整手法を用いて,このような難解な一般化を実演する。
本研究は, LMの難解な一般化が, 研究課題に対して驚くほど強いことを結論づける。
論文 参考訳(メタデータ) (2024-01-12T18:36:29Z) - Simplicity Bias Leads to Amplified Performance Disparities [8.60453031364566]
SGDで訓練されたモデルは、単純さに偏りがあることを示し、多数派の学習を優先させる。
モデルは、単純なデータセットのクラスやグループを優先順位付けし、複雑なものを見つけることを犠牲にすることができる。
論文 参考訳(メタデータ) (2022-12-13T15:24:41Z) - Evading the Simplicity Bias: Training a Diverse Set of Models Discovers
Solutions with Superior OOD Generalization [93.8373619657239]
SGDで訓練されたニューラルネットワークは最近、線形予測的特徴に優先的に依存することが示された。
この単純さバイアスは、分布外堅牢性(OOD)の欠如を説明することができる。
単純さのバイアスを軽減し,ood一般化を改善できることを実証する。
論文 参考訳(メタデータ) (2021-05-12T12:12:24Z) - On the Pitfalls of Learning with Limited Data: A Facial Expression
Recognition Case Study [0.5249805590164901]
私達はビデオからの顔表現の認識の問題に焦点を合わせます。
4つのデータベースを異なる複雑さで,9つのディープラーニングアーキテクチャで動画分類を行った。
複雑なトレーニングセットは、トランスファーラーニングと合成生成データでトレーニングすると、より安定したテストセットによく変換されます。
論文 参考訳(メタデータ) (2021-04-02T18:53:41Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z) - A Close Look at Deep Learning with Small Data [0.0]
モデル複雑性は、クラス毎に数個のサンプルしか利用できない場合に重要な要素であることを示す。
また、標準的なデータ拡張であっても、認識性能を大きなマージンで向上させることができることを示す。
論文 参考訳(メタデータ) (2020-03-28T17:11:29Z) - Robust and On-the-fly Dataset Denoising for Image Classification [72.10311040730815]
On-the-fly Data Denoising (ODD)は、間違ったラベルの例に対して堅牢だが、通常のトレーニングと比べて計算オーバーヘッドはほぼゼロである。
ODDはWebVisionやClothing1Mといった現実世界のデータセットを含む、幅広いデータセットで最先端の結果を達成することができる。
論文 参考訳(メタデータ) (2020-03-24T03:59:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。