Fugu-MT 論文翻訳(概要): Data Factors for Better Compositional Generalization

論文の概要: Data Factors for Better Compositional Generalization

arxiv url: http://arxiv.org/abs/2311.04420v1
Date: Wed, 8 Nov 2023 01:27:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-09 17:15:43.047443
Title: Data Factors for Better Compositional Generalization
Title（参考訳）: より良い構成一般化のためのデータ因子
Authors: Xiang Zhou, Yichen Jiang, Mohit Bansal
Abstract要約: 我々は、異なるデータ要素を持つ様々なトレーニングセット上で、Transformerモデルをトレーニングすることで、経験的分析を行う。データセットの複雑さが増大すると、複数の異なる一般化課題におけるより優れた一般化行動がもたらされることを示す。難易度の異なるトレーニング例が一般化にどう影響するかを考察する。
参考スコア（独自算出の注目度）: 60.698130703909804
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent diagnostic datasets on compositional generalization, such as SCAN (Lake and Baroni, 2018) and COGS (Kim and Linzen, 2020), expose severe problems in models trained from scratch on these datasets. However, in contrast to this poor performance, state-of-the-art models trained on larger and more general datasets show better generalization ability. In this work, to reconcile this inconsistency, we conduct an empirical analysis by training Transformer models on a variety of training sets with different data factors, including dataset scale, pattern complexity, example difficulty, etc. First, we show that increased dataset complexity can lead to better generalization behavior on multiple different generalization challenges. To further understand this improvement, we show two axes of the benefit from more complex datasets: they provide more diverse examples so compositional understanding becomes more effective, and they also prevent ungeneralizable memorization of the examples due to reduced example repetition frequency. Finally, we explore how training examples of different difficulty levels influence generalization differently. On synthetic datasets, simple examples invoke stronger compositionality than hard examples do. On larger-scale real language datasets, while hard examples become more important potentially to ensure decent data coverage, a balanced mixture of simple and hard examples manages to induce the strongest generalizability. The code and data for this work are available at https://github.com/owenzx/data4comp
Abstract（参考訳）: 最近、SCAN (Lake and Baroni, 2018) やCOGS (Kim and Linzen, 2020) のような構成一般化に関する診断データセットは、これらのデータセットをスクラッチからトレーニングしたモデルの深刻な問題を露呈している。しかし、この貧弱なパフォーマンスとは対照的に、より大規模で一般的なデータセットでトレーニングされた最先端のモデルは、より良い一般化能力を示している。本研究では,この不整合を解消するために,データセットスケール,パターン複雑性,サンプル難易度など,さまざまなデータファクタを持つトレーニングセット上でトランスフォーマモデルをトレーニングすることにより,経験的分析を行う。まず、データセットの複雑さが増大すると、複数の異なる一般化課題におけるより優れた一般化行動がもたらされることを示す。この改善をさらに理解するために、より複雑なデータセットの利点の2つの軸を示す: それらはより多様な例を提供し、構成的理解をより効果的にする。最後に、異なる難易度のトレーニング例が一般化にどう影響するかを考察する。合成データセットでは、単純な例は硬い例よりも強い構成性を呼び起こす。大規模な実言語データセットでは、適切なデータカバレッジを確保する上で、難しい例がより重要になる一方で、シンプルでハードな例のバランスのとれた混合によって、最強の一般化可能性が引き起こされる。この作業のコードとデータはhttps://github.com/owenzx/data4compで入手できる。

関連論文リスト

Does Data Scaling Lead to Visual Compositional Generalization? [21.242714408660508]
構成一般化は単なるデータスケールではなく,データの多様性によってもたらされる。この構造が効率の鍵であることを証明し、ほとんど観測されていない組み合わせから完全な一般化を可能にする。
論文参考訳（メタデータ） (2025-07-09T17:59:03Z)
On the generalization of language models from in-context learning and finetuning: a controlled study [36.384796130439035]
言語モデルの文脈内学習は、異なる帰納バイアスを示し、場合によってはより一般化できることを示す。本研究では,微調整データに文脈内推論を追加することによって,微調整による一般化を改善する手法を提案する。この結果は,言語モデルにおける学習様式の違いによる帰納バイアスの理解に影響を及ぼす。
論文参考訳（メタデータ） (2025-05-01T17:02:27Z)
Weak-to-Strong Generalization Through the Data-Centric Lens [12.221894353699918]
重なり密度という弱強一般化を特徴付ける単純なデータ中心機構を提案する。一般化の利点は重なり合う密度の関数であり、データ選択アルゴリズムに対する後悔の束縛であることを示す理論的結果を示す。
論文参考訳（メタデータ） (2024-12-05T05:29:19Z)
Easy2Hard-Bench: Standardized Difficulty Labels for Profiling LLM Performance and Generalization [126.27645170941268]
さまざまなドメインにまたがる6つのベンチマークデータセットのコレクションであるEasy2Hard-Benchを紹介します。これらのデータセット内の各問題は、数値的な難易度スコアで注釈付けされる。様々な難易度にまたがる性能と一般化能力を総合的に分析する。
論文参考訳（メタデータ） (2024-09-27T03:49:56Z)
Towards Understanding the Relationship between In-context Learning and Compositional Generalization [7.843029855730508]
私たちは、通常の学習を非常に難しい設定で因果変換器を訓練します。しかし、このモデルは、初期の例を利用して、後の例に一般化することで、タスクを解くことができる。データセット、SCAN、COGS、GeoQueryの評価では、この方法でトレーニングされたモデルは、実際に合成の一般化の改善を示している。
論文参考訳（メタデータ） (2024-03-18T14:45:52Z)
The Unreasonable Effectiveness of Easy Training Data for Hard Tasks [84.30018805150607]
既存の事前学習言語モデルが比較的容易にハードなデータから一般化されることがしばしばあるという驚くべき結論を提示する。本稿では,テキスト内学習,線形ヘッド,QLoRAなどの簡単な微調整手法を用いて,このような難解な一般化を実演する。本研究は, LMの難解な一般化が, 研究課題に対して驚くほど強いことを結論づける。
論文参考訳（メタデータ） (2024-01-12T18:36:29Z)
Simplicity Bias Leads to Amplified Performance Disparities [8.60453031364566]
SGDで訓練されたモデルは、単純さに偏りがあることを示し、多数派の学習を優先させる。モデルは、単純なデータセットのクラスやグループを優先順位付けし、複雑なものを見つけることを犠牲にすることができる。
論文参考訳（メタデータ） (2022-12-13T15:24:41Z)
Evading the Simplicity Bias: Training a Diverse Set of Models Discovers Solutions with Superior OOD Generalization [93.8373619657239]
SGDで訓練されたニューラルネットワークは最近、線形予測的特徴に優先的に依存することが示された。この単純さバイアスは、分布外堅牢性(OOD)の欠如を説明することができる。単純さのバイアスを軽減し,ood一般化を改善できることを実証する。
論文参考訳（メタデータ） (2021-05-12T12:12:24Z)
On the Pitfalls of Learning with Limited Data: A Facial Expression Recognition Case Study [0.5249805590164901]
私達はビデオからの顔表現の認識の問題に焦点を合わせます。 4つのデータベースを異なる複雑さで,9つのディープラーニングアーキテクチャで動画分類を行った。複雑なトレーニングセットは、トランスファーラーニングと合成生成データでトレーニングすると、より安定したテストセットによく変換されます。
論文参考訳（メタデータ） (2021-04-02T18:53:41Z)
Learning What Makes a Difference from Counterfactual Examples and Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文参考訳（メタデータ） (2020-04-20T02:47:49Z)
A Close Look at Deep Learning with Small Data [0.0]
モデル複雑性は、クラス毎に数個のサンプルしか利用できない場合に重要な要素であることを示す。また、標準的なデータ拡張であっても、認識性能を大きなマージンで向上させることができることを示す。
論文参考訳（メタデータ） (2020-03-28T17:11:29Z)
Robust and On-the-fly Dataset Denoising for Image Classification [72.10311040730815]
On-the-fly Data Denoising (ODD)は、間違ったラベルの例に対して堅牢だが、通常のトレーニングと比べて計算オーバーヘッドはほぼゼロである。 ODDはWebVisionやClothing1Mといった現実世界のデータセットを含む、幅広いデータセットで最先端の結果を達成することができる。
論文参考訳（メタデータ） (2020-03-24T03:59:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。