論文の概要: Complexity Control Facilitates Reasoning-Based Compositional Generalization in Transformers
- arxiv url: http://arxiv.org/abs/2501.08537v1
- Date: Wed, 15 Jan 2025 02:54:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 15:53:22.110440
- Title: Complexity Control Facilitates Reasoning-Based Compositional Generalization in Transformers
- Title(参考訳): 複雑度制御は変圧器の推論に基づく合成一般化を実現する
- Authors: Zhongwang Zhang, Pengxiao Lin, Zhiwei Wang, Yaoyu Zhang, Zhi-Qin John Xu,
- Abstract要約: 本研究では,コンポジションタスクにおけるトランスフォーマーの振舞いのメカニズムについて検討する。
複雑性制御戦略は,分布外(推論に基づく解)を一般化するプリミティブレベルのルールを学習するか,あるいは記憶されたマッピング(メモリベースの解)にのみ依存するかに影響を及ぼす。
- 参考スコア(独自算出の注目度): 10.206921909332006
- License:
- Abstract: Transformers have demonstrated impressive capabilities across various tasks, yet their performance on compositional problems remains a subject of debate. In this study, we investigate the internal mechanisms underlying Transformers' behavior in compositional tasks. We find that complexity control strategies significantly influence whether the model learns primitive-level rules that generalize out-of-distribution (reasoning-based solutions) or relies solely on memorized mappings (memory-based solutions). By applying masking strategies to the model's information circuits and employing multiple complexity metrics, we reveal distinct internal working mechanisms associated with different solution types. Further analysis reveals that reasoning-based solutions exhibit a lower complexity bias, which aligns with the well-studied neuron condensation phenomenon. This lower complexity bias is hypothesized to be the key factor enabling these solutions to learn reasoning rules. We validate these conclusions across multiple real-world datasets, including image generation and natural language processing tasks, confirming the broad applicability of our findings.
- Abstract(参考訳): トランスフォーマーは様々なタスクにまたがって印象的な能力を示してきたが、その構成上の問題に対するパフォーマンスは依然として議論の対象となっている。
本研究では,コンポジションタスクにおけるトランスフォーマーの振舞いのメカニズムについて検討する。
複雑性制御戦略は,分布外分布(推論に基づく解)を一般化するプリミティブレベルのルールを学習するか,あるいは記憶されたマッピング(メモリベースの解)にのみ依存するかに大きく影響する。
モデルの情報回路にマスキング戦略を適用し,複数の複雑性指標を用いて,異なる解型に関連する内部動作機構を明らかにする。
さらなる分析により、推論に基づく解はより低い複雑性バイアスを示し、よく研究されたニューロン凝縮現象と一致することが明らかになった。
このより低い複雑性バイアスは、これらのソリューションが推論規則を学習できる鍵となる要因であると仮定されている。
我々は、画像生成や自然言語処理タスクを含む複数の実世界のデータセットにまたがってこれらの結論を検証し、この結果の広範な適用性を確認した。
関連論文リスト
- Counting in Small Transformers: The Delicate Interplay between Attention and Feed-Forward Layers [16.26331213222281]
アーキテクチャ設計の選択がトランスフォーマーが実装し学習できるソリューションの空間にどのように影響するかを検討する。
小型変圧器が理論的に実装できる2つの異なる計数戦略を特徴付ける。
簡単な設定であっても、モデル設計のわずかなバリエーションは、トランスフォーマーが学習するソリューションに大きな変化をもたらす可能性がある。
論文 参考訳(メタデータ) (2024-07-16T09:48:10Z) - Limits of Deep Learning: Sequence Modeling through the Lens of Complexity Theory [15.24542569393982]
彼らの成功にもかかわらず、ディープラーニングモデルは複雑な推論と機能構成を必要とするタスクに苦しむ。
本研究では,SSM(Structured State Space Models)とTransformer(Transformer)の制約に関する理論的および実証的研究を行う。
信頼性の高い多段階推論と構成課題解決を実現するための革新的なソリューションの必要性を強調した。
論文 参考訳(メタデータ) (2024-05-26T19:33:23Z) - Initialization is Critical to Whether Transformers Fit Composite Functions by Reasoning or Memorizing [10.206921909332006]
トランスフォーマーは様々なタスクにわたって印象的な能力を示してきたが、構成問題におけるパフォーマンスは議論の的となっている。
パラメータ初期化尺度は、モデルが推論(推論に基づく)解を学習するかどうかを決定する上で重要な役割を果たす。
さらに、推論(推論に基づく)ソリューションは、複雑さのバイアスが低く、単一のアンカーに対する個々のマッピングを学習できる重要な要素である、と仮定する。
論文 参考訳(メタデータ) (2024-05-08T20:23:24Z) - Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。
これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。
実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文 参考訳(メタデータ) (2023-05-29T23:24:14Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z) - Relational Reasoning via Set Transformers: Provable Efficiency and
Applications to MARL [154.13105285663656]
置換不変エージェントフレームワークを用いたMARL(Multi-A gent R einforcement Learning)は,実世界のアプリケーションにおいて大きな実証的成功を収めた。
残念なことに、このMARL問題の理論的理解は、多くのエージェントの呪いと、既存の著作における関係推論の限定的な探索によって欠落している。
モデルフリーアルゴリズムとモデルベースアルゴリズムの最適度差は各エージェント数に独立して対数的であり、多くのエージェントの呪いを和らげる。
論文 参考訳(メタデータ) (2022-09-20T16:42:59Z) - Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。
本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。
我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文 参考訳(メタデータ) (2022-05-25T17:37:08Z) - Generalization of Neural Combinatorial Solvers Through the Lens of
Adversarial Robustness [68.97830259849086]
ほとんどのデータセットは単純なサブプロブレムのみをキャプチャし、おそらくは突発的な特徴に悩まされる。
本研究では, 局所的な一般化特性である対向ロバスト性について検討し, 厳密でモデル固有な例と突発的な特徴を明らかにする。
他のアプリケーションとは異なり、摂動モデルは知覚できないという主観的な概念に基づいて設計されているため、摂動モデルは効率的かつ健全である。
驚くべきことに、そのような摂動によって、十分に表現力のあるニューラルソルバは、教師あり学習で共通する正確さと悪質さのトレードオフの限界に悩まされない。
論文 参考訳(メタデータ) (2021-10-21T07:28:11Z) - Joint learning of variational representations and solvers for inverse
problems with partially-observed data [13.984814587222811]
本稿では,教師付き環境において,逆問題に対する実際の変分フレームワークを学習するためのエンドツーエンドフレームワークを設計する。
変動コストと勾配に基づく解法はどちらも、後者の自動微分を用いたニューラルネットワークとして記述される。
これにより、データ駆動による変分モデルの発見につながる。
論文 参考訳(メタデータ) (2020-06-05T19:53:34Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。