論文の概要: Scale leads to compositional generalization
- arxiv url: http://arxiv.org/abs/2507.07207v1
- Date: Wed, 09 Jul 2025 18:30:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.172863
- Title: Scale leads to compositional generalization
- Title(参考訳): スケールは構成一般化につながる
- Authors: Florian Redhardt, Yassir Akram, Simon Schug,
- Abstract要約: スケーリングデータとモデルサイズが構成一般化に繋がることを示す。
トレーニング分布がタスク空間を十分にカバーしている限り、これは異なるタスクエンコーディングにまたがることを示す。
ネットワークが構成的一般化に成功すれば、タスクの構成成分が隠れたアクティベーションから線形に復号化できることがわかった。
- 参考スコア(独自算出の注目度): 1.287456940851492
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Can neural networks systematically capture discrete, compositional task structure despite their continuous, distributed nature? The impressive capabilities of large-scale neural networks suggest that the answer to this question is yes. However, even for the most capable models, there are still frequent failure cases that raise doubts about their compositionality. Here, we seek to understand what it takes for a standard neural network to generalize over tasks that share compositional structure. We find that simply scaling data and model size leads to compositional generalization. We show that this holds across different task encodings as long as the training distribution sufficiently covers the task space. In line with this finding, we prove that standard multilayer perceptrons can approximate a general class of compositional task families to arbitrary precision using only a linear number of neurons with respect to the number of task modules. Finally, we uncover that if networks successfully compositionally generalize, the constituents of a task can be linearly decoded from their hidden activations. We show that this metric correlates with failures of text-to-image generation models to compose known concepts.
- Abstract(参考訳): ニューラルネットワークは、連続的、分散的な性質にもかかわらず、離散的、構成的タスク構造を体系的に捉えることができるか?
大規模ニューラルネットワークの素晴らしい能力は、この質問に対する答えがイエスであることを示唆している。
しかしながら、最も有能なモデルであっても、その構成性に疑問を呈する障害ケースが頻繁に存在する。
ここでは、構成構造を共有するタスクを一般化するために、標準ニューラルネットワークに何が必要かを理解する。
単にデータとモデルサイズをスケールすれば、構成の一般化につながることが分かっています。
トレーニング分布がタスク空間を十分にカバーしている限り、これは異なるタスクエンコーディングにまたがることを示す。
この発見に則って、標準的な多層パーセプトロンは、タスクモジュール数に関して、線形数のニューロンのみを用いて、任意の精度で構成タスクファミリーの一般的なクラスを近似することができることを証明した。
最後に、ネットワークが構成的一般化に成功すれば、タスクの構成成分が隠れたアクティベーションから線形に復号化できることを明らかにする。
このメトリクスは、既知の概念を構成するためのテキスト・画像生成モデルの失敗と相関することを示す。
関連論文リスト
- Coding schemes in neural networks learning classification tasks [52.22978725954347]
完全接続型広義ニューラルネットワーク学習タスクについて検討する。
ネットワークが強力なデータ依存機能を取得することを示す。
驚くべきことに、内部表現の性質は神経の非線形性に大きく依存する。
論文 参考訳(メタデータ) (2024-06-24T14:50:05Z) - Attention as a Hypernetwork [22.087242869138223]
トランスフォーマーは、トレーニング中に構成部品に遭遇した可能性があるが、構成が存在しない新しい問題インスタンスに一般化することができる。
マルチヘッドアテンションをハイパーネットワークとして再構成することにより、構成可能な低次元ラテント符号がキークエリ固有の演算を規定していることを明らかにする。
この潜伏コードは、未確認のタスク構成に対してネットワークが実行するサブタスクを予測し、トレーニング中に取得した潜伏コードは、未確認の問題のインスタンスを解決するために再利用されることを明らかにする。
論文 参考訳(メタデータ) (2024-06-09T15:08:00Z) - How Deep Neural Networks Learn Compositional Data: The Random Hierarchy Model [47.617093812158366]
言語と画像の階層構造にインスパイアされた合成タスクのファミリーであるランダム階層モデルを紹介する。
深層ネットワークは、等価なグループを交換するために不変な内部表現を開発することでタスクを学習する。
この結果から, ネットワークは次元の呪いを克服し, 不変表現を構築できることが示唆された。
論文 参考訳(メタデータ) (2023-07-05T09:11:09Z) - Neural Networks and the Chomsky Hierarchy [27.470857324448136]
チョムスキー理論の知見が実際にニューラルネットワークの一般化の限界を予測できるかどうかを考察する。
膨大なデータとトレーニング時間さえも、非自明な一般化に繋がらない負の結果を示す。
この結果から,RNNとTransformerは非正規タスクの一般化に失敗し,構造化メモリで拡張されたネットワークのみがコンテキストレス・コンテキスト依存タスクの一般化に成功していることがわかった。
論文 参考訳(メタデータ) (2022-07-05T15:06:11Z) - Robust Generalization of Quadratic Neural Networks via Function
Identification [19.87036824512198]
一般化は、テスト分布がトレーニング分布に近いと仮定することが多い。
2次ニューラルネットワークでは、パラメータを特定できないにもかかわらず、モデルで表される関数を識別できることが示される。
論文 参考訳(メタデータ) (2021-09-22T18:02:00Z) - Generalization in Multimodal Language Learning from Simulation [20.751952728808153]
教師付き時間連続設定で学習した最小限のLSTMネットワークにおいて、基礎となるトレーニングデータ分布が一般化に与える影響について検討する。
構成的一般化は、単純な設定で失敗すると同時に、オブジェクトの数、アクション、特にオブジェクト間の多くの色重なりで改善する。
論文 参考訳(メタデータ) (2021-08-03T12:55:18Z) - Neural Complexity Measures [96.06344259626127]
本稿では,一般化を予測するメタラーニングフレームワークであるNeural Complexity(NC)を提案する。
我々のモデルは、データ駆動方式で、多くの異種タスクとの相互作用を通じてスカラー複雑性尺度を学習する。
論文 参考訳(メタデータ) (2020-08-07T02:12:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。