論文の概要: Sometimes I am a Tree: Data Drives Unstable Hierarchical Generalization
- arxiv url: http://arxiv.org/abs/2412.04619v2
- Date: Tue, 17 Dec 2024 18:42:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:56:06.542727
- Title: Sometimes I am a Tree: Data Drives Unstable Hierarchical Generalization
- Title(参考訳): 時々私は木である:データは不安定な階層的一般化を駆動する
- Authors: Tian Qin, Naomi Saphra, David Alvarez-Melis,
- Abstract要約: 我々は、英語文法のケーススタディを用いて、OODを一般化するために、いかに複雑で多様なトレーニングデータがモデルを動かすかを探る。
これらの因子はニュアンス的であり、中間レベルの多様性と複雑性がランダムな種子間の不整合性に繋がることを示した。
本研究は, 一般化パターン形成におけるトレーニングデータの重要性を強調し, 競合するモデル戦略が無作為な種子に対して不整合な一般化結果をもたらすかを明らかにした。
- 参考スコア(独自算出の注目度): 15.028208772567487
- License:
- Abstract: Language models (LMs), like other neural networks, often favor shortcut heuristics based on surface-level patterns. Although LMs behave like n-gram models early in training, they must eventually learn hierarchical syntactic representations to correctly apply grammatical rules out-of-distribution (OOD). In this work, we use case studies of English grammar to explore how complex, diverse training data drives models to generalize OOD. We construct a framework that unifies our understanding of random variation with training dynamics, rule selection with memorization, and data diversity with complexity. We show that these factors are nuanced, and that intermediate levels of diversity and complexity lead to inconsistent behavior across random seeds and to unstable training dynamics. Our findings emphasize the critical role of training data in shaping generalization patterns and illuminate how competing model strategies lead to inconsistent generalization outcomes across random seeds. Code is available at https://github.com/sunnytqin/concept_comp.git.
- Abstract(参考訳): 言語モデル(LM)は、他のニューラルネットワークと同様に、表面レベルのパターンに基づいたショートカットヒューリスティックを好むことが多い。
LMは訓練の初期にn-gramモデルのように振る舞うが、最終的には階層的な構文表現を学習し、文法規則をアウト・オブ・ディストリビューション(OOD)として正しく適用する必要がある。
本研究では、英語文法のケーススタディを用いて、OODを一般化するためのモデルがいかに複雑で多様な訓練データを駆動するかを探索する。
我々は,学習力学,暗記による規則選択,複雑さを伴うデータ多様性によるランダム変動の理解を統一する枠組みを構築した。
これらの要因は曖昧であり、多様性と複雑性の中間レベルは、ランダムシード間の不整合性や不安定なトレーニングダイナミクスに繋がることを示した。
本研究は, 一般化パターン形成におけるトレーニングデータの重要性を強調し, 競合するモデル戦略が無作為な種子に対して不整合な一般化結果をもたらすかを明らかにした。
コードはhttps://github.com/sunnytqin/concept_comp.git.comで入手できる。
関連論文リスト
- How compositional generalization and creativity improve as diffusion models are trained [82.08869888944324]
生成モデルでは、多くの新しいデータを生成するために、構成規則を学習する必要があるサンプルはいくつありますか?
言語や画像などのデータ構造を表現するために,木のようなグラフィカルモデルを用いて,単純な文脈自由文法に基づいて学習した拡散モデルを考察する。
拡散モデルは,統計学的に類似したコンテキストを持つクラスタリング機能に必要なサンプル複雑度で構成規則を学習する。
論文 参考訳(メタデータ) (2025-02-17T18:06:33Z) - Exploring the Learning Capabilities of Language Models using LEVERWORLDS [23.40759867281453]
設定のモデルを学ぶには、一般的な構造ルールとインスタンスの特定の特性の両方を学ぶ必要がある。
本稿では,様々な学習方法における一般学習と特定学習の相互作用について,サンプル効率に着目して検討する。
論文 参考訳(メタデータ) (2024-10-01T09:02:13Z) - Learning Syntax Without Planting Trees: Understanding When and Why Transformers Generalize Hierarchically [74.96551626420188]
自然言語データに基づいて訓練されたトランスフォーマーは、その階層構造を学習し、目に見えない構文構造を持つ文に一般化することが示されている。
本研究では,変圧器モデルにおける帰納バイアスの発生源と,そのような一般化行動を引き起こす可能性のあるトレーニングについて検討する。
論文 参考訳(メタデータ) (2024-04-25T07:10:29Z) - How to Plant Trees in Language Models: Data and Architectural Effects on
the Emergence of Syntactic Inductive Biases [28.58785395946639]
事前学習は、微調整後にタスクを実行する際に、階層的な構文的特徴に依存するように言語モデルを教えることができることを示す。
アーキテクチャの特徴(深さ、幅、パラメータ数)と、事前学習コーパスのジャンルとサイズに焦点を当てる。
論文 参考訳(メタデータ) (2023-05-31T14:38:14Z) - On the Compositional Generalization Gap of In-Context Learning [73.09193595292233]
In-distriion (ID) と Out-of-distriion (OOD) の相違について考察する。
我々は,3つの意味解析データセットを用いて,OPT,BLOOM,CodeGen,Codexの4つのモデルファミリを評価する。
論文 参考訳(メタデータ) (2022-11-15T19:56:37Z) - Sequence-to-Sequence Learning with Latent Neural Grammars [12.624691611049341]
ニューラルネットワークを用いたシーケンス対シーケンス学習は、シーケンス予測タスクのデファクトスタンダードとなっている。
フレキシブルでパフォーマンスが高いが、これらのモデルはトレーニングのために大きなデータセットを必要とすることが多く、構成の一般化をテストするために設計されたベンチマークで驚くほど失敗することがある。
この研究は、準同期文法を用いたシーケンシャル・ツー・シークエンス学習の代替的、階層的アプローチを探求する。
論文 参考訳(メタデータ) (2021-09-02T17:58:08Z) - Meta-Learning to Compositionally Generalize [34.656819307701156]
教師あり学習のメタラーニング拡張版を実装した。
既存のトレーニングデータをサブサンプリングすることでメタ学習のためのタスクのペアを構築する。
COGSおよびSCANデータセットの実験結果から、類似性駆動型メタラーニングにより一般化性能が向上することが示された。
論文 参考訳(メタデータ) (2021-06-08T11:21:48Z) - Structured Reordering for Modeling Latent Alignments in Sequence
Transduction [86.94309120789396]
本稿では,分離可能な置換の辺りを正確に推定する効率的な動的プログラミングアルゴリズムを提案する。
結果のSeq2seqモデルは、合成問題やNLPタスクの標準モデルよりも体系的な一般化が優れている。
論文 参考訳(メタデータ) (2021-06-06T21:53:54Z) - Evading the Simplicity Bias: Training a Diverse Set of Models Discovers
Solutions with Superior OOD Generalization [93.8373619657239]
SGDで訓練されたニューラルネットワークは最近、線形予測的特徴に優先的に依存することが示された。
この単純さバイアスは、分布外堅牢性(OOD)の欠如を説明することができる。
単純さのバイアスを軽減し,ood一般化を改善できることを実証する。
論文 参考訳(メタデータ) (2021-05-12T12:12:24Z) - Neural Complexity Measures [96.06344259626127]
本稿では,一般化を予測するメタラーニングフレームワークであるNeural Complexity(NC)を提案する。
我々のモデルは、データ駆動方式で、多くの異種タスクとの相互作用を通じてスカラー複雑性尺度を学習する。
論文 参考訳(メタデータ) (2020-08-07T02:12:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。