論文の概要: Analyzing the Inner Workings of Transformers in Compositional Generalization
- arxiv url: http://arxiv.org/abs/2502.15277v1
- Date: Fri, 21 Feb 2025 08:07:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 16:09:52.884693
- Title: Analyzing the Inner Workings of Transformers in Compositional Generalization
- Title(参考訳): 構成一般化における変圧器の内部動作の解析
- Authors: Ryoma Kumon, Hitomi Yanaka,
- Abstract要約: 本稿では,トランスフォーマーモデルの内部動作について,一般化性能に寄与する既存のサブネットワークを見つけることによって検討する。
モデルが正しい解を出力するための構文的特徴に依存していることがわかったが、全体のモデルよりもはるかに優れた一般化性能を持つサブネットワークは非合成アルゴリズムに依存している。
- 参考スコア(独自算出の注目度): 15.599899071518545
- License:
- Abstract: The compositional generalization abilities of neural models have been sought after for human-like linguistic competence. The popular method to evaluate such abilities is to assess the models' input-output behavior. However, that does not reveal the internal mechanisms, and the underlying competence of such models in compositional generalization remains unclear. To address this problem, we explore the inner workings of a Transformer model by finding an existing subnetwork that contributes to the generalization performance and by performing causal analyses on how the model utilizes syntactic features. We find that the model depends on syntactic features to output the correct answer, but that the subnetwork with much better generalization performance than the whole model relies on a non-compositional algorithm in addition to the syntactic features. We also show that the subnetwork improves its generalization performance relatively slowly during the training compared to the in-distribution one, and the non-compositional solution is acquired in the early stages of the training.
- Abstract(参考訳): ニューラルモデルの合成一般化能力は、人間のような言語能力のために追求されている。
このような能力を評価するための一般的な方法は、モデルの入出力動作を評価することである。
しかし、それは内部メカニズムを明らかにしておらず、構成的一般化におけるそのようなモデルの根底にある能力は未だ不明である。
この問題に対処するために,トランスフォーマーモデルの内部動作について,一般化性能に寄与する既存のサブネットワークを発見し,そのモデルが構文的特徴をどのように利用するかの因果解析を行うことにより検討する。
モデルが正しい解を出力するためには構文的特徴に依存するが、全体のモデルよりもはるかに優れた一般化性能を持つサブネットワークは、構文的特徴に加えて非合成的アルゴリズムに依存する。
また, サブネットワークは, トレーニング中の一般化性能を, 分布内よりも比較的遅く改善し, トレーニングの初期段階において非構成的解を得ることを示した。
関連論文リスト
- Investigating the Role of Instruction Variety and Task Difficulty in Robotic Manipulation Tasks [50.75902473813379]
本研究は、そのようなモデルの一般化能力における命令と入力の役割を体系的に検証する包括的評価フレームワークを導入する。
提案フレームワークは,極度の命令摂動に対するマルチモーダルモデルのレジリエンスと,観測的変化に対する脆弱性を明らかにする。
論文 参考訳(メタデータ) (2024-07-04T14:36:49Z) - Uncovering mesa-optimization algorithms in Transformers [61.06055590704677]
いくつかの自己回帰モデルは、入力シーケンスが処理されたときに学習でき、パラメータの変更を受けずに、それを行うように明示的に訓練されていない。
我々は,新しい入力が明らかになったときにモデルを調整するための補助学習アルゴリズムが,標準の次トーケン予測誤差最小化によって生まれることを示す。
本研究は、自己回帰損失最小化の産物としてコンテキスト内学習を説明し、新しい最適化ベースのトランスフォーマー層の設計を通知する。
論文 参考訳(メタデータ) (2023-09-11T22:42:50Z) - On the Generalization and Adaption Performance of Causal Models [99.64022680811281]
異なる因果発見は、データ生成プロセスを一連のモジュールに分解するために提案されている。
このようなモジュラニューラル因果モデルの一般化と適応性能について検討する。
我々の分析では、モジュラーニューラル因果モデルが、低データレギュレーションにおけるゼロおよび少数ショットの適応において、他のモデルよりも優れていることを示している。
論文 参考訳(メタデータ) (2022-06-09T17:12:32Z) - Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。
本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。
我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文 参考訳(メタデータ) (2022-05-25T17:37:08Z) - Revisiting the Compositional Generalization Abilities of Neural Sequence
Models [23.665350744415004]
一般的なSCANベンチマークで導入されたワンショットプリミティブな一般化に焦点を当てる。
トレーニング分布をシンプルかつ直感的に修正することで、標準的なSeq-to-seqモデルでほぼ完璧な一般化性能が得られることを示す。
論文 参考訳(メタデータ) (2022-03-14T18:03:21Z) - Rethinking Self-Supervision Objectives for Generalizable Coherence
Modeling [8.329870357145927]
機械生成テキストのコヒーレンス評価は、検討すべきコヒーレンスモデルの主要な応用の1つである。
タスク全体にわたってうまく一般化するモデルをもたらす訓練データと自己超越目標について検討する。
本研究では, 負サンプルの密度の増加が基本モデルを改善することを実証的に示し, 大域的負のキューを用いることで, 強負のサンプルを訓練しながらモデルをさらに改善・安定化する。
論文 参考訳(メタデータ) (2021-10-14T07:44:14Z) - Refining Neural Networks with Compositional Explanations [31.84868477264624]
本稿では,モデルの失敗事例に関する人為的な構成説明を収集し,学習モデルの改良を提案する。
提案手法が2つのテキスト分類タスクに有効であることを示す。
論文 参考訳(メタデータ) (2021-03-18T17:48:54Z) - More Is More -- Narrowing the Generalization Gap by Adding
Classification Heads [8.883733362171032]
我々は「TransNet」と呼ばれる入力変換に基づく既存のニューラルネットワークモデルのためのアーキテクチャ拡張を導入する。
私たちのモデルは、トレーニング時間のみに使用でき、予測のために刈り取られ、結果としてベースモデルと同等のアーキテクチャになります。
論文 参考訳(メタデータ) (2021-02-09T16:30:33Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z) - A Systematic Assessment of Syntactic Generalization in Neural Language
Models [20.589737524626745]
本稿では,ニューラルネットワークモデルの構文的知識を体系的に評価する。
モデルアーキテクチャによる構文一般化性能には大きな違いがある。
また, この結果から, パープレキシティと構文一般化性能の解離が明らかとなった。
論文 参考訳(メタデータ) (2020-05-07T18:35:25Z) - Rethinking Generalization of Neural Models: A Named Entity Recognition
Case Study [81.11161697133095]
NERタスクをテストベッドとして、異なる視点から既存モデルの一般化挙動を分析する。
詳細な分析による実験は、既存のニューラルNERモデルのボトルネックを診断する。
本論文の副産物として,最近のNER論文の包括的要約を含むプロジェクトをオープンソース化した。
論文 参考訳(メタデータ) (2020-01-12T04:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。