論文の概要: Sometimes I am a Tree: Data Drives Unstable Hierarchical Generalization
- arxiv url: http://arxiv.org/abs/2412.04619v1
- Date: Thu, 05 Dec 2024 21:12:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:57:33.192750
- Title: Sometimes I am a Tree: Data Drives Unstable Hierarchical Generalization
- Title(参考訳): 時々私は木である:データは不安定な階層的一般化を駆動する
- Authors: Tian Qin, Naomi Saphra, David Alvarez-Melis,
- Abstract要約: トレーニングデータにおける潜在構造が、分散の一般化を改善するためにモデルをどのように駆動するかを考察する。
その結果, モデルがOODの挙動を安定させるのは, 表面レベル線形規則か階層規則かのいずれかに完全にコミットした場合に限られることがわかった。
本研究は, 一般化パターン形成におけるトレーニングデータの重要性を強調した。
- 参考スコア(独自算出の注目度): 15.028208772567487
- License:
- Abstract: Neural networks often favor shortcut heuristics based on surface-level patterns. As one example, language models (LMs) behave like n-gram models early in training. However, to correctly apply grammatical rules, LMs must rely on hierarchical syntactic representations instead of n-grams. In this work, we use cases studies of English grammar to explore how latent structure in training data drives models toward improved out-of-distribution (OOD) generalization.We then investigate how data composition can lead to inconsistent OOD behavior across random seeds and to unstable training dynamics. Our results show that models stabilize in their OOD behavior only when they fully commit to either a surface-level linear rule or a hierarchical rule. The hierarchical rule, furthermore, is induced by grammatically complex sequences with deep embedding structures, whereas the linear rule is induced by simpler sequences. When the data contains a mix of simple and complex examples, potential rules compete; each independent training run either stabilizes by committing to a single rule or remains unstable in its OOD behavior. These conditions lead `stable seeds' to cluster around simple rules, forming bimodal performance distributions across seeds. We also identify an exception to the relationship between stability and generalization: models which memorize patterns from low-diversity training data can overfit stably, with different rules for memorized and unmemorized patterns. Our findings emphasize the critical role of training data in shaping generalization patterns and how competition between data subsets contributes to inconsistent generalization outcomes across random seeds. Code is available at https://github.com/sunnytqin/concept_comp.git.
- Abstract(参考訳): ニューラルネットワークは、しばしば表面レベルのパターンに基づいたショートカットヒューリスティックを好む。
一例として、言語モデル(LM)は訓練の初期にn-gramモデルのように振る舞う。
しかし、文法規則を正しく適用するには、LMはn-グラムの代わりに階層的構文表現に頼らなければならない。
本研究では、英語文法のケーススタディを用いて、学習データにおける潜在構造が、改善されたアウト・オブ・ディストリビューション(OOD)一般化に向けてモデルをどのように駆動するかを探索する。
その結果, モデルがOODの挙動を安定させるのは, 表面レベル線形規則か階層規則かのいずれかに完全にコミットした場合に限られることがわかった。
さらに階層規則は、深い埋め込み構造を持つ文法的に複雑な列によって誘導されるが、線形規則はより単純な列によって誘導される。
データに単純な例と複雑な例が混在している場合、潜在的なルールは競合する。
これらの条件は「安定な種」を単純な規則の周りに集結させ、種子のバイモーダルな性能分布を形成する。
低多様性トレーニングデータからパターンを記憶するモデルは、記憶されたパターンと記憶されていないパターンの異なる規則で安定的に過度に適合することができる。
本研究は,データの一般化パターン形成におけるトレーニングデータの重要性と,データサブセット間の競合がランダム種子間の一貫性のない一般化結果にどのように寄与するかを強調した。
コードはhttps://github.com/sunnytqin/concept_comp.git.comで入手できる。
関連論文リスト
- How compositional generalization and creativity improve as diffusion models are trained [82.08869888944324]
生成モデルでは、多くの新しいデータを生成するために、構成規則を学習する必要があるサンプルはいくつありますか?
言語や画像などのデータ構造を表現するために,木のようなグラフィカルモデルを用いて,単純な文脈自由文法に基づいて学習した拡散モデルを考察する。
拡散モデルは,統計学的に類似したコンテキストを持つクラスタリング機能に必要なサンプル複雑度で構成規則を学習する。
論文 参考訳(メタデータ) (2025-02-17T18:06:33Z) - Exploring the Learning Capabilities of Language Models using LEVERWORLDS [23.40759867281453]
設定のモデルを学ぶには、一般的な構造ルールとインスタンスの特定の特性の両方を学ぶ必要がある。
本稿では,様々な学習方法における一般学習と特定学習の相互作用について,サンプル効率に着目して検討する。
論文 参考訳(メタデータ) (2024-10-01T09:02:13Z) - Learning Syntax Without Planting Trees: Understanding When and Why Transformers Generalize Hierarchically [74.96551626420188]
自然言語データに基づいて訓練されたトランスフォーマーは、その階層構造を学習し、目に見えない構文構造を持つ文に一般化することが示されている。
本研究では,変圧器モデルにおける帰納バイアスの発生源と,そのような一般化行動を引き起こす可能性のあるトレーニングについて検討する。
論文 参考訳(メタデータ) (2024-04-25T07:10:29Z) - How to Plant Trees in Language Models: Data and Architectural Effects on
the Emergence of Syntactic Inductive Biases [28.58785395946639]
事前学習は、微調整後にタスクを実行する際に、階層的な構文的特徴に依存するように言語モデルを教えることができることを示す。
アーキテクチャの特徴(深さ、幅、パラメータ数)と、事前学習コーパスのジャンルとサイズに焦点を当てる。
論文 参考訳(メタデータ) (2023-05-31T14:38:14Z) - On the Compositional Generalization Gap of In-Context Learning [73.09193595292233]
In-distriion (ID) と Out-of-distriion (OOD) の相違について考察する。
我々は,3つの意味解析データセットを用いて,OPT,BLOOM,CodeGen,Codexの4つのモデルファミリを評価する。
論文 参考訳(メタデータ) (2022-11-15T19:56:37Z) - Sequence-to-Sequence Learning with Latent Neural Grammars [12.624691611049341]
ニューラルネットワークを用いたシーケンス対シーケンス学習は、シーケンス予測タスクのデファクトスタンダードとなっている。
フレキシブルでパフォーマンスが高いが、これらのモデルはトレーニングのために大きなデータセットを必要とすることが多く、構成の一般化をテストするために設計されたベンチマークで驚くほど失敗することがある。
この研究は、準同期文法を用いたシーケンシャル・ツー・シークエンス学習の代替的、階層的アプローチを探求する。
論文 参考訳(メタデータ) (2021-09-02T17:58:08Z) - Meta-Learning to Compositionally Generalize [34.656819307701156]
教師あり学習のメタラーニング拡張版を実装した。
既存のトレーニングデータをサブサンプリングすることでメタ学習のためのタスクのペアを構築する。
COGSおよびSCANデータセットの実験結果から、類似性駆動型メタラーニングにより一般化性能が向上することが示された。
論文 参考訳(メタデータ) (2021-06-08T11:21:48Z) - Structured Reordering for Modeling Latent Alignments in Sequence
Transduction [86.94309120789396]
本稿では,分離可能な置換の辺りを正確に推定する効率的な動的プログラミングアルゴリズムを提案する。
結果のSeq2seqモデルは、合成問題やNLPタスクの標準モデルよりも体系的な一般化が優れている。
論文 参考訳(メタデータ) (2021-06-06T21:53:54Z) - Evading the Simplicity Bias: Training a Diverse Set of Models Discovers
Solutions with Superior OOD Generalization [93.8373619657239]
SGDで訓練されたニューラルネットワークは最近、線形予測的特徴に優先的に依存することが示された。
この単純さバイアスは、分布外堅牢性(OOD)の欠如を説明することができる。
単純さのバイアスを軽減し,ood一般化を改善できることを実証する。
論文 参考訳(メタデータ) (2021-05-12T12:12:24Z) - Neural Complexity Measures [96.06344259626127]
本稿では,一般化を予測するメタラーニングフレームワークであるNeural Complexity(NC)を提案する。
我々のモデルは、データ駆動方式で、多くの異種タスクとの相互作用を通じてスカラー複雑性尺度を学習する。
論文 参考訳(メタデータ) (2020-08-07T02:12:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。