Fugu-MT 論文翻訳(概要): Sometimes I am a Tree: Data Drives Unstable Hierarchical Generalization

論文の概要: Sometimes I am a Tree: Data Drives Unstable Hierarchical Generalization

arxiv url: http://arxiv.org/abs/2412.04619v1
Date: Thu, 05 Dec 2024 21:12:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-09 22:41:40.934356
Title: Sometimes I am a Tree: Data Drives Unstable Hierarchical Generalization
Title（参考訳）: 時々私は木である:データは不安定な階層的一般化を駆動する
Authors: Tian Qin, Naomi Saphra, David Alvarez-Melis,
Abstract要約: トレーニングデータにおける潜在構造が、分散の一般化を改善するためにモデルをどのように駆動するかを考察する。その結果, モデルがOODの挙動を安定させるのは, 表面レベル線形規則か階層規則かのいずれかに完全にコミットした場合に限られることがわかった。本研究は, 一般化パターン形成におけるトレーニングデータの重要性を強調した。
参考スコア（独自算出の注目度）: 15.028208772567487
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Neural networks often favor shortcut heuristics based on surface-level patterns. As one example, language models (LMs) behave like n-gram models early in training. However, to correctly apply grammatical rules, LMs must rely on hierarchical syntactic representations instead of n-grams. In this work, we use cases studies of English grammar to explore how latent structure in training data drives models toward improved out-of-distribution (OOD) generalization.We then investigate how data composition can lead to inconsistent OOD behavior across random seeds and to unstable training dynamics. Our results show that models stabilize in their OOD behavior only when they fully commit to either a surface-level linear rule or a hierarchical rule. The hierarchical rule, furthermore, is induced by grammatically complex sequences with deep embedding structures, whereas the linear rule is induced by simpler sequences. When the data contains a mix of simple and complex examples, potential rules compete; each independent training run either stabilizes by committing to a single rule or remains unstable in its OOD behavior. These conditions lead `stable seeds' to cluster around simple rules, forming bimodal performance distributions across seeds. We also identify an exception to the relationship between stability and generalization: models which memorize patterns from low-diversity training data can overfit stably, with different rules for memorized and unmemorized patterns. Our findings emphasize the critical role of training data in shaping generalization patterns and how competition between data subsets contributes to inconsistent generalization outcomes across random seeds. Code is available at https://github.com/sunnytqin/concept_comp.git.
Abstract（参考訳）: ニューラルネットワークは、しばしば表面レベルのパターンに基づいたショートカットヒューリスティックを好む。一例として、言語モデル(LM)は訓練の初期にn-gramモデルのように振る舞う。しかし、文法規則を正しく適用するには、LMはn-グラムの代わりに階層的構文表現に頼らなければならない。本研究では、英語文法のケーススタディを用いて、学習データにおける潜在構造が、改善されたアウト・オブ・ディストリビューション(OOD)一般化に向けてモデルをどのように駆動するかを探索する。その結果, モデルがOODの挙動を安定させるのは, 表面レベル線形規則か階層規則かのいずれかに完全にコミットした場合に限られることがわかった。さらに階層規則は、深い埋め込み構造を持つ文法的に複雑な列によって誘導されるが、線形規則はより単純な列によって誘導される。データに単純な例と複雑な例が混在している場合、潜在的なルールは競合する。これらの条件は「安定な種」を単純な規則の周りに集結させ、種子のバイモーダルな性能分布を形成する。低多様性トレーニングデータからパターンを記憶するモデルは、記憶されたパターンと記憶されていないパターンの異なる規則で安定的に過度に適合することができる。本研究は,データの一般化パターン形成におけるトレーニングデータの重要性と,データサブセット間の競合がランダム種子間の一貫性のない一般化結果にどのように寄与するかを強調した。コードはhttps://github.com/sunnytqin/concept_comp.git.comで入手できる。

関連論文リスト

Exploring the Learning Capabilities of Language Models using LEVERWORLDS [23.40759867281453]
設定のモデルを学ぶには、一般的な構造ルールとインスタンスの特定の特性の両方を学ぶ必要がある。本稿では,様々な学習方法における一般学習と特定学習の相互作用について,サンプル効率に着目して検討する。
論文参考訳（メタデータ） (2024-10-01T09:02:13Z)
Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2～3倍の高速化を実現した。
論文参考訳（メタデータ） (2024-07-22T18:00:00Z)
Learning Syntax Without Planting Trees: Understanding Hierarchical Generalization in Transformers [74.96551626420188]
自然言語データに基づいて訓練されたトランスフォーマーは、その階層構造を学習し、目に見えない構文構造を持つ文に一般化することが示されている。本研究では,変圧器モデルにおける帰納バイアスの発生源と,そのような一般化行動を引き起こす可能性のあるトレーニングについて検討する。
論文参考訳（メタデータ） (2024-04-25T07:10:29Z)
SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking [60.109453252858806]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。得られた手法であるSequenceMatchは、敵の訓練やアーキテクチャの変更なしに実装できる。
論文参考訳（メタデータ） (2023-06-08T17:59:58Z)
How to Plant Trees in Language Models: Data and Architectural Effects on the Emergence of Syntactic Inductive Biases [28.58785395946639]
事前学習は、微調整後にタスクを実行する際に、階層的な構文的特徴に依存するように言語モデルを教えることができることを示す。アーキテクチャの特徴(深さ、幅、パラメータ数)と、事前学習コーパスのジャンルとサイズに焦点を当てる。
論文参考訳（メタデータ） (2023-05-31T14:38:14Z)
On the Compositional Generalization Gap of In-Context Learning [73.09193595292233]
In-distriion (ID) と Out-of-distriion (OOD) の相違について考察する。我々は,3つの意味解析データセットを用いて,OPT,BLOOM,CodeGen,Codexの4つのモデルファミリを評価する。
論文参考訳（メタデータ） (2022-11-15T19:56:37Z)
Unsupervised Mismatch Localization in Cross-Modal Sequential Data [5.932046800902776]
我々は、コンテンツミスマッチしたクロスモーダルデータ間の関係を推測できる教師なし学習アルゴリズムを開発した。本稿では,音声生成過程を階層的に構造化された潜在変数に分解する,ミスマッチ局所化変分自動符号化(ML-VAE)という階層型ベイズディープラーニングモデルを提案する。実験の結果,ML-VAEは人間のアノテーションを必要とせず,テキストと音声のミスマッチの特定に成功した。
論文参考訳（メタデータ） (2022-05-05T14:23:27Z)
General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。 GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文参考訳（メタデータ） (2021-12-20T14:47:32Z)
Sequence-to-Sequence Learning with Latent Neural Grammars [12.624691611049341]
ニューラルネットワークを用いたシーケンス対シーケンス学習は、シーケンス予測タスクのデファクトスタンダードとなっている。フレキシブルでパフォーマンスが高いが、これらのモデルはトレーニングのために大きなデータセットを必要とすることが多く、構成の一般化をテストするために設計されたベンチマークで驚くほど失敗することがある。この研究は、準同期文法を用いたシーケンシャル・ツー・シークエンス学習の代替的、階層的アプローチを探求する。
論文参考訳（メタデータ） (2021-09-02T17:58:08Z)
A Generative Approach for Mitigating Structural Biases in Natural Language Inference [24.44419010439227]
本研究では、NLIタスクを生成タスクとして再構成し、モデルが入力とラベルのバイアス付きサブセットに条件付けされるようにする。このアプローチは大量のバイアスに対して非常に堅牢であることを示す。生成モデルは訓練が困難であり、識別ベースラインよりも一般的にはパフォーマンスが悪くなっている。
論文参考訳（メタデータ） (2021-08-31T17:59:45Z)
Meta-Learning to Compositionally Generalize [34.656819307701156]
教師あり学習のメタラーニング拡張版を実装した。既存のトレーニングデータをサブサンプリングすることでメタ学習のためのタスクのペアを構築する。 COGSおよびSCANデータセットの実験結果から、類似性駆動型メタラーニングにより一般化性能が向上することが示された。
論文参考訳（メタデータ） (2021-06-08T11:21:48Z)
Structured Reordering for Modeling Latent Alignments in Sequence Transduction [86.94309120789396]
本稿では,分離可能な置換の辺りを正確に推定する効率的な動的プログラミングアルゴリズムを提案する。結果のSeq2seqモデルは、合成問題やNLPタスクの標準モデルよりも体系的な一般化が優れている。
論文参考訳（メタデータ） (2021-06-06T21:53:54Z)
Evading the Simplicity Bias: Training a Diverse Set of Models Discovers Solutions with Superior OOD Generalization [93.8373619657239]
SGDで訓練されたニューラルネットワークは最近、線形予測的特徴に優先的に依存することが示された。この単純さバイアスは、分布外堅牢性(OOD)の欠如を説明することができる。単純さのバイアスを軽減し,ood一般化を改善できることを実証する。
論文参考訳（メタデータ） (2021-05-12T12:12:24Z)
Neural Complexity Measures [96.06344259626127]
本稿では,一般化を予測するメタラーニングフレームワークであるNeural Complexity(NC)を提案する。我々のモデルは、データ駆動方式で、多くの異種タスクとの相互作用を通じてスカラー複雑性尺度を学習する。
論文参考訳（メタデータ） (2020-08-07T02:12:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。