論文の概要: Attention as a Hypernetwork
- arxiv url: http://arxiv.org/abs/2406.05816v3
- Date: Thu, 10 Oct 2024 13:15:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-11 14:28:04.333611
- Title: Attention as a Hypernetwork
- Title(参考訳): Hypernetworkとしての注意
- Authors: Simon Schug, Seijin Kobayashi, Yassir Akram, João Sacramento, Razvan Pascanu,
- Abstract要約: トランスフォーマーは、トレーニング中に構成部品に遭遇した可能性があるが、構成が存在しない新しい問題インスタンスに一般化することができる。
マルチヘッドアテンションをハイパーネットワークとして再構成することにより、構成可能な低次元ラテント符号がキークエリ固有の操作を規定していることを明らかにする。
この潜在コードは、ネットワークが目に見えないタスク構成で実行するサブタスクの予測であることがわかった。
- 参考スコア(独自算出の注目度): 22.087242869138223
- License:
- Abstract: Transformers can under some circumstances generalize to novel problem instances whose constituent parts might have been encountered during training but whose compositions have not. What mechanisms underlie this ability for compositional generalization? By reformulating multi-head attention as a hypernetwork, we reveal that a composable, low-dimensional latent code specifies key-query specific operations. We find empirically that this latent code is predictive of the subtasks the network performs on unseen task compositions revealing that latent codes acquired during training are reused to solve unseen problem instances. To further examine the hypothesis that the intrinsic hypernetwork of multi-head attention supports compositional generalization, we ablate whether making the hypernetwork generated linear value network nonlinear strengthens compositionality. We find that this modification improves compositional generalization on abstract reasoning tasks. In particular, we introduce a symbolic version of the Raven Progressive Matrices human intelligence test which gives us precise control over the problem compositions encountered during training and evaluation. We demonstrate on this task how scaling model size and data enables compositional generalization in transformers and gives rise to a functionally structured latent space.
- Abstract(参考訳): トランスフォーマーは、ある状況下では、トレーニング中に構成部品に遭遇したかもしれないが、構成が存在しない可能性のある、新しい問題事例に一般化することができる。
この構成一般化能力を実現するメカニズムは何か?
マルチヘッドアテンションをハイパーネットワークとして再構成することにより、構成可能な低次元ラテント符号がキークエリ固有の演算を規定していることを明らかにする。
この潜伏コードは、トレーニング中に取得した潜伏コードが、未確認の問題を解くために再利用されていることを示す未確認のタスク構成に対して、ネットワークが実行するサブタスクを予測することを実証的に見出した。
マルチヘッドアテンションの内在的ハイパーネットワークが構成一般化を支持するという仮説をさらに検証するため,ハイパーネットワークが生成する線形値ネットワークを非線形に構成性を高めるか否かを議論する。
この修正により、抽象的推論タスクの合成一般化が向上することがわかった。
特に,Raven Progressive Matrices Human Intelligence Testのシンボリックバージョンを導入し,トレーニングおよび評価中に発生する問題構成を正確に制御する。
モデルサイズとデータのスケーリングによって変換器の構成一般化が実現され,機能的に構造化された潜在空間がもたらされることを示す。
関連論文リスト
- Inducing Systematicity in Transformers by Attending to Structurally
Quantized Embeddings [60.698130703909804]
トランスフォーマーは、複雑なデータセットでトレーニングされた後、構造と実体の新規な構成に一般化する。
本稿では,SQ-Transformerを提案する。
SQ-Transformerは,複数の低複雑さ意味解析および機械翻訳データセット上で,バニラ変換器よりも強い構成一般化を実現することを示す。
論文 参考訳(メタデータ) (2024-02-09T15:53:15Z) - Real-World Compositional Generalization with Disentangled
Sequence-to-Sequence Learning [81.24269148865555]
最近提案されたDunangled sequence-to-sequence model (Dangle)は、有望な一般化能力を示している。
このモデルに2つの重要な変更を加え、より不整合表現を奨励し、その計算とメモリ効率を改善する。
具体的には、各タイミングでソースキーと値を適応的に再エンコードするのではなく、表現をアンタングルし、キーを定期的に再エンコードする。
論文 参考訳(メタデータ) (2022-12-12T15:40:30Z) - When Can Transformers Ground and Compose: Insights from Compositional
Generalization Benchmarks [7.4726048754587415]
人間は、言語発話を現実世界に基礎づけながら、構成的に推論することができる。
ReaSCANのような最近のベンチマークでは、グリッドの世界に根ざしたナビゲーションタスクを使用して、ニューラルモデルが同様の機能を示すかどうかを評価する。
本稿では,ReaSCAN の特殊アーキテクチャと gSCAN の修正版を比較検討する。
論文 参考訳(メタデータ) (2022-10-23T17:03:55Z) - Systematic Generalization and Emergent Structures in Transformers
Trained on Structured Tasks [6.525090891505941]
我々は、因果変換器が、コピー、ソート、階層的な構成を含む一連のアルゴリズムタスクを実行する方法を示す。
両層変換器は多層問題に対する一般化可能な解法を学習し,系統的タスク分解の兆候を現示する。
これらの結果は、トランスフォーマーモデルが複雑な決定を再利用可能なマルチレベルポリシーに分解する方法について、重要な洞察を与えてくれる。
論文 参考訳(メタデータ) (2022-10-02T00:46:36Z) - Disentangled Sequence to Sequence Learning for Compositional
Generalization [62.954842223732435]
本稿では,ソース入力を適応的に再符号化することで,不整合表現の学習を可能にするシーケンス・ツー・シーケンス・モデルの拡張を提案する。
意味解析と機械翻訳の実験結果から,提案手法はより不整合な表現とより優れた一般化をもたらすことが示された。
論文 参考訳(メタデータ) (2021-10-09T22:27:19Z) - Generalization in Multimodal Language Learning from Simulation [20.751952728808153]
教師付き時間連続設定で学習した最小限のLSTMネットワークにおいて、基礎となるトレーニングデータ分布が一般化に与える影響について検討する。
構成的一般化は、単純な設定で失敗すると同時に、オブジェクトの数、アクション、特にオブジェクト間の多くの色重なりで改善する。
論文 参考訳(メタデータ) (2021-08-03T12:55:18Z) - Bayesian Attention Belief Networks [59.183311769616466]
注意に基づくニューラルネットワークは、幅広いタスクにおいて最先端の結果を得た。
本稿では,非正規化注意重みをモデル化してデコーダネットワークを構築するベイズ的注意信念ネットワークについて紹介する。
提案手法は, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃において, 決定論的注意と最先端の注意よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-09T17:46:22Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Multi-Head Attention: Collaborate Instead of Concatenate [85.71058762269374]
我々は,頭部が共有投影を学習できる,協調的な多面的アテンション層を提案する。
実験により、キー/クエリの次元の共有は言語理解、機械翻訳、ビジョンに活用できることを確認した。
論文 参考訳(メタデータ) (2020-06-29T20:28:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。