論文の概要: Sometimes I am a Tree: Data Drives Unstable Hierarchical Generalization
- arxiv url: http://arxiv.org/abs/2412.04619v1
- Date: Thu, 05 Dec 2024 21:12:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:57:33.192750
- Title: Sometimes I am a Tree: Data Drives Unstable Hierarchical Generalization
- Title(参考訳): 時々私は木である:データは不安定な階層的一般化を駆動する
- Authors: Tian Qin, Naomi Saphra, David Alvarez-Melis,
- Abstract要約: トレーニングデータにおける潜在構造が、分散の一般化を改善するためにモデルをどのように駆動するかを考察する。
その結果, モデルがOODの挙動を安定させるのは, 表面レベル線形規則か階層規則かのいずれかに完全にコミットした場合に限られることがわかった。
本研究は, 一般化パターン形成におけるトレーニングデータの重要性を強調した。
- 参考スコア(独自算出の注目度): 15.028208772567487
- License:
- Abstract: Neural networks often favor shortcut heuristics based on surface-level patterns. As one example, language models (LMs) behave like n-gram models early in training. However, to correctly apply grammatical rules, LMs must rely on hierarchical syntactic representations instead of n-grams. In this work, we use cases studies of English grammar to explore how latent structure in training data drives models toward improved out-of-distribution (OOD) generalization.We then investigate how data composition can lead to inconsistent OOD behavior across random seeds and to unstable training dynamics. Our results show that models stabilize in their OOD behavior only when they fully commit to either a surface-level linear rule or a hierarchical rule. The hierarchical rule, furthermore, is induced by grammatically complex sequences with deep embedding structures, whereas the linear rule is induced by simpler sequences. When the data contains a mix of simple and complex examples, potential rules compete; each independent training run either stabilizes by committing to a single rule or remains unstable in its OOD behavior. These conditions lead `stable seeds' to cluster around simple rules, forming bimodal performance distributions across seeds. We also identify an exception to the relationship between stability and generalization: models which memorize patterns from low-diversity training data can overfit stably, with different rules for memorized and unmemorized patterns. Our findings emphasize the critical role of training data in shaping generalization patterns and how competition between data subsets contributes to inconsistent generalization outcomes across random seeds. Code is available at https://github.com/sunnytqin/concept_comp.git.
- Abstract(参考訳): ニューラルネットワークは、しばしば表面レベルのパターンに基づいたショートカットヒューリスティックを好む。
一例として、言語モデル(LM)は訓練の初期にn-gramモデルのように振る舞う。
しかし、文法規則を正しく適用するには、LMはn-グラムの代わりに階層的構文表現に頼らなければならない。
本研究では、英語文法のケーススタディを用いて、学習データにおける潜在構造が、改善されたアウト・オブ・ディストリビューション(OOD)一般化に向けてモデルをどのように駆動するかを探索する。
その結果, モデルがOODの挙動を安定させるのは, 表面レベル線形規則か階層規則かのいずれかに完全にコミットした場合に限られることがわかった。
さらに階層規則は、深い埋め込み構造を持つ文法的に複雑な列によって誘導されるが、線形規則はより単純な列によって誘導される。
データに単純な例と複雑な例が混在している場合、潜在的なルールは競合する。
これらの条件は「安定な種」を単純な規則の周りに集結させ、種子のバイモーダルな性能分布を形成する。
低多様性トレーニングデータからパターンを記憶するモデルは、記憶されたパターンと記憶されていないパターンの異なる規則で安定的に過度に適合することができる。
本研究は,データの一般化パターン形成におけるトレーニングデータの重要性と,データサブセット間の競合がランダム種子間の一貫性のない一般化結果にどのように寄与するかを強調した。
コードはhttps://github.com/sunnytqin/concept_comp.git.comで入手できる。
関連論文リスト
- Learning Syntax Without Planting Trees: Understanding When and Why Transformers Generalize Hierarchically [74.96551626420188]
自然言語データに基づいて訓練されたトランスフォーマーは、その階層構造を学習し、目に見えない構文構造を持つ文に一般化することが示されている。
本研究では,変圧器モデルにおける帰納バイアスの発生源と,そのような一般化行動を引き起こす可能性のあるトレーニングについて検討する。
論文 参考訳(メタデータ) (2024-04-25T07:10:29Z) - SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking [60.109453252858806]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。
我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。
これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。
得られた手法であるSequenceMatchは、敵の訓練やアーキテクチャの変更なしに実装できる。
論文 参考訳(メタデータ) (2023-06-08T17:59:58Z) - Graph-based Time Series Clustering for End-to-End Hierarchical Forecasting [18.069747511100132]
時系列間の関係は、効果的な予測モデル学習における帰納バイアスとして利用することができる。
本稿では,関係性および階層的帰納バイアスを統一するグラフベースの手法を提案する。
論文 参考訳(メタデータ) (2023-05-30T16:27:25Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z) - Sequence-to-Sequence Learning with Latent Neural Grammars [12.624691611049341]
ニューラルネットワークを用いたシーケンス対シーケンス学習は、シーケンス予測タスクのデファクトスタンダードとなっている。
フレキシブルでパフォーマンスが高いが、これらのモデルはトレーニングのために大きなデータセットを必要とすることが多く、構成の一般化をテストするために設計されたベンチマークで驚くほど失敗することがある。
この研究は、準同期文法を用いたシーケンシャル・ツー・シークエンス学習の代替的、階層的アプローチを探求する。
論文 参考訳(メタデータ) (2021-09-02T17:58:08Z) - A Generative Approach for Mitigating Structural Biases in Natural
Language Inference [24.44419010439227]
本研究では、NLIタスクを生成タスクとして再構成し、モデルが入力とラベルのバイアス付きサブセットに条件付けされるようにする。
このアプローチは大量のバイアスに対して非常に堅牢であることを示す。
生成モデルは訓練が困難であり、識別ベースラインよりも一般的にはパフォーマンスが悪くなっている。
論文 参考訳(メタデータ) (2021-08-31T17:59:45Z) - Structured Reordering for Modeling Latent Alignments in Sequence
Transduction [86.94309120789396]
本稿では,分離可能な置換の辺りを正確に推定する効率的な動的プログラミングアルゴリズムを提案する。
結果のSeq2seqモデルは、合成問題やNLPタスクの標準モデルよりも体系的な一般化が優れている。
論文 参考訳(メタデータ) (2021-06-06T21:53:54Z) - Evading the Simplicity Bias: Training a Diverse Set of Models Discovers
Solutions with Superior OOD Generalization [93.8373619657239]
SGDで訓練されたニューラルネットワークは最近、線形予測的特徴に優先的に依存することが示された。
この単純さバイアスは、分布外堅牢性(OOD)の欠如を説明することができる。
単純さのバイアスを軽減し,ood一般化を改善できることを実証する。
論文 参考訳(メタデータ) (2021-05-12T12:12:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。