論文の概要: Initialization is Critical to Whether Transformers Fit Composite Functions by Inference or Memorizing
- arxiv url: http://arxiv.org/abs/2405.05409v3
- Date: Sat, 05 Oct 2024 16:31:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:11:14.857051
- Title: Initialization is Critical to Whether Transformers Fit Composite Functions by Inference or Memorizing
- Title(参考訳): 初期化はトランスフォーマーの合成関数が推論や記憶によって適合するかどうかに必須である
- Authors: Zhongwang Zhang, Pengxiao Lin, Zhiwei Wang, Yaoyu Zhang, Zhi-Qin John Xu,
- Abstract要約: トランスフォーマーは様々なタスクに対して印象的な能力を示してきたが、構成上の問題に対するパフォーマンスは議論の的となっている。
本研究では,変圧器が構成課題に対してどのように振る舞うかを考察する。
- 参考スコア(独自算出の注目度): 10.206921909332006
- License:
- Abstract: Transformers have shown impressive capabilities across various tasks, but their performance on compositional problems remains a topic of debate. In this work, we investigate the mechanisms of how transformers behave on unseen compositional tasks. We discover that the parameter initialization scale plays a critical role in determining whether the model learns inferential solutions, which capture the underlying compositional primitives, or symmetric solutions, which simply memorize mappings without understanding the compositional structure. By analyzing the information flow and vector representations within the model, we reveal the distinct mechanisms underlying these solution types. We further find that inferential solutions exhibit low complexity bias, which we hypothesize is a key factor enabling them to learn individual mappings for single anchors. We validate our conclusions on various real-world datasets. Our findings provide valuable insights into the role of initialization scale in shaping the type of solution learned by transformers and their ability to learn and generalize compositional tasks.
- Abstract(参考訳): トランスフォーマーは様々なタスクに対して印象的な能力を示してきたが、構成上の問題に対するパフォーマンスは議論の的となっている。
本研究では,変圧器が構成課題に対してどのように振る舞うかを考察する。
パラメータ初期化尺度は、モデルが基底となる構成原始体をキャプチャする推論解を学習するか、あるいは構成構造を理解せずに単純に写像を記憶する対称解を学習するかを決定する上で重要な役割を担っている。
モデル内の情報フローとベクトル表現を解析することにより、これらの解の型の基礎となる異なるメカニズムを明らかにする。
さらに、推論解は複雑さのバイアスが低く、単一のアンカーの個々のマッピングを学習できる重要な要素である、と仮定する。
様々な実世界のデータセットで結論を検証した。
本研究は,トランスフォーマーが学習した解の種類と,構成課題を学習・一般化する能力について,初期化尺度が果たす役割について,貴重な知見を提供するものである。
関連論文リスト
- Complexity Control Facilitates Reasoning-Based Compositional Generalization in Transformers [10.206921909332006]
本研究では,コンポジションタスクにおけるトランスフォーマーの振舞いのメカニズムについて検討する。
複雑性制御戦略は,分布外(推論に基づく解)を一般化するプリミティブレベルのルールを学習するか,あるいは記憶されたマッピング(メモリベースの解)にのみ依存するかに影響を及ぼす。
論文 参考訳(メタデータ) (2025-01-15T02:54:52Z) - Counting in Small Transformers: The Delicate Interplay between Attention and Feed-Forward Layers [16.26331213222281]
アーキテクチャ設計の選択がトランスフォーマーが実装し学習できるソリューションの空間にどのように影響するかを検討する。
小型変圧器が理論的に実装できる2つの異なる計数戦略を特徴付ける。
簡単な設定であっても、モデル設計のわずかなバリエーションは、トランスフォーマーが学習するソリューションに大きな変化をもたらす可能性がある。
論文 参考訳(メタデータ) (2024-07-16T09:48:10Z) - From Bricks to Bridges: Product of Invariances to Enhance Latent Space Communication [19.336940758147442]
異なるニューラルネットワークによって学習された表現は、モデルが同様の誘導バイアスの下で訓練されたときに構造的類似性を隠蔽することが観察されている。
我々は,不変成分の積空間を潜在表現の上に構築し,その表現に不変量の集合を直接組み込む汎用的手法を導入する。
我々は,ゼロショット縫合設定において,一貫した遅延類似性および下流性能向上を観察し,分類および再構成タスクに対するソリューションの有効性を検証した。
論文 参考訳(メタデータ) (2023-10-02T13:55:38Z) - DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained
Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。
任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。
各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文 参考訳(メタデータ) (2023-01-23T15:18:54Z) - Equivariance with Learned Canonicalization Functions [77.32483958400282]
正規化を行うために小さなニューラルネットワークを学習することは、事前定義を使用することよりも優れていることを示す。
実験の結果,正準化関数の学習は多くのタスクで同変関数を学習する既存の手法と競合することがわかった。
論文 参考訳(メタデータ) (2022-11-11T21:58:15Z) - Transformer for Partial Differential Equations' Operator Learning [0.0]
演算子変換器(OFormer)と呼ばれるデータ駆動型演算子学習のための注意ベースのフレームワークを提案する。
我々のフレームワークは、自己注意、クロスアテンション、および一組のポイントワイド多層パーセプトロン(MLP)に基づいて構築されている。
論文 参考訳(メタデータ) (2022-05-26T23:17:53Z) - Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。
本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。
我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文 参考訳(メタデータ) (2022-05-25T17:37:08Z) - Generalization of Neural Combinatorial Solvers Through the Lens of
Adversarial Robustness [68.97830259849086]
ほとんどのデータセットは単純なサブプロブレムのみをキャプチャし、おそらくは突発的な特徴に悩まされる。
本研究では, 局所的な一般化特性である対向ロバスト性について検討し, 厳密でモデル固有な例と突発的な特徴を明らかにする。
他のアプリケーションとは異なり、摂動モデルは知覚できないという主観的な概念に基づいて設計されているため、摂動モデルは効率的かつ健全である。
驚くべきことに、そのような摂動によって、十分に表現力のあるニューラルソルバは、教師あり学習で共通する正確さと悪質さのトレードオフの限界に悩まされない。
論文 参考訳(メタデータ) (2021-10-21T07:28:11Z) - A Trainable Optimal Transport Embedding for Feature Aggregation and its
Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。
我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文 参考訳(メタデータ) (2020-06-22T08:35:58Z) - Joint learning of variational representations and solvers for inverse
problems with partially-observed data [13.984814587222811]
本稿では,教師付き環境において,逆問題に対する実際の変分フレームワークを学習するためのエンドツーエンドフレームワークを設計する。
変動コストと勾配に基づく解法はどちらも、後者の自動微分を用いたニューラルネットワークとして記述される。
これにより、データ駆動による変分モデルの発見につながる。
論文 参考訳(メタデータ) (2020-06-05T19:53:34Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。