論文の概要: Unveiling Transformers with LEGO: a synthetic reasoning task
- arxiv url: http://arxiv.org/abs/2206.04301v1
- Date: Thu, 9 Jun 2022 06:30:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 12:45:11.117741
- Title: Unveiling Transformers with LEGO: a synthetic reasoning task
- Title(参考訳): LEGOによるトランスフォーマーの展開:合成推論
- Authors: Yi Zhang, Arturs Backurs, S\'ebastien Bubeck, Ronen Eldan, Suriya
Gunasekar, Tal Wagner
- Abstract要約: 我々は、トランスフォーマーアーキテクチャが推論の連鎖に従うことを学ぶ方法について研究する。
一部のデータ構造では、訓練されたトランスフォーマーは、推論の連鎖に従う"ショートカット"ソリューションを見つける。
このようなショートカットが適切なアーキテクチャ修正やデータ準備によって防止できることが分かりました。
- 参考スコア(独自算出の注目度): 23.535488809197787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a synthetic task, LEGO (Learning Equality and Group Operations),
that encapsulates the problem of following a chain of reasoning, and we study
how the transformer architecture learns this task. We pay special attention to
data effects such as pretraining (on seemingly unrelated NLP tasks) and dataset
composition (e.g., differing chain length at training and test time), as well
as architectural variants such as weight-tied layers or adding convolutional
components. We study how the trained models eventually succeed at the task, and
in particular, we are able to understand (to some extent) some of the attention
heads as well as how the information flows in the network. Based on these
observations we propose a hypothesis that here pretraining helps merely due to
being a smart initialization rather than some deep knowledge stored in the
network. We also observe that in some data regime the trained transformer finds
"shortcut" solutions to follow the chain of reasoning, which impedes the
model's ability to generalize to simple variants of the main task, and moreover
we find that one can prevent such shortcut with appropriate architecture
modification or careful data preparation. Motivated by our findings, we begin
to explore the task of learning to execute C programs, where a convolutional
modification to transformers, namely adding convolutional structures in the
key/query/value maps, shows an encouraging edge.
- Abstract(参考訳): 我々は,論理の連鎖に従う問題をカプセル化した合成タスクlego(learning equal and group operations)を提案し,トランスフォーマーアーキテクチャがこのタスクをどのように学習するかを検討する。
プレトレーニング(一見無関係なnlpタスク)やデータセット構成(トレーニングやテスト時間におけるチェーン長の違いなど)といったデータ効果や、重み付け層や畳み込みコンポーネントの追加といったアーキテクチャ上のバリエーションには特に注意を払っています。
我々は、トレーニングされたモデルが最終的にタスクにどのように成功するかを研究し、特に、注意のヘッドのいくつかと、ネットワーク内の情報の流れを(ある程度)理解することができる。
これらの観測に基づいて、ネットワークに格納された深い知識ではなく、スマートな初期化のためだけに事前学習が役立つという仮説を提案する。
また、いくつかのデータレジームでは、トレーニングされたトランスフォーマーが推論の連鎖に従うための"ショートカット"ソリューションを見つけ、モデルがメインタスクの単純な変種に一般化する能力を妨げること、そして、適切なアーキテクチャの変更や注意深いデータ準備によってそのような近道を防ぐことができることを観察する。
本研究の目的は,キー/クエリ/バリューマップに畳み込み構造を付加したトランスフォーマーに畳み込みを施すという,Cプログラム実行の学習課題を探求することである。
関連論文リスト
- Task Vectors in In-Context Learning: Emergence, Formation, and Benefit [17.72043522825441]
合成データセットをスクラッチから学習したモデルを用いて, 制御された環境下でのタスクベクトルの生成について検討した。
その結果,特定の条件下ではタスクベクトルが自然に現れることが確認できたが,タスクは比較的弱く,あるいは非局所的にモデル内にコード化されている可能性がある。
モデル内の所定位置に符号化された強いタスクベクトルを促進するために,損失を促すタスクベクトルに基づく補助的なトレーニング機構を提案する。
論文 参考訳(メタデータ) (2025-01-16T01:54:23Z) - Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - Counting in Small Transformers: The Delicate Interplay between Attention and Feed-Forward Layers [16.26331213222281]
アーキテクチャ設計の選択がトランスフォーマーが実装し学習できるソリューションの空間にどのように影響するかを検討する。
小型変圧器が理論的に実装できる2つの異なる計数戦略を特徴付ける。
簡単な設定であっても、モデル設計のわずかなバリエーションは、トランスフォーマーが学習するソリューションに大きな変化をもたらす可能性がある。
論文 参考訳(メタデータ) (2024-07-16T09:48:10Z) - Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - Initialization is Critical to Whether Transformers Fit Composite Functions by Reasoning or Memorizing [10.206921909332006]
トランスフォーマーは様々なタスクにわたって印象的な能力を示してきたが、構成問題におけるパフォーマンスは議論の的となっている。
パラメータ初期化尺度は、モデルが推論(推論に基づく)解を学習するかどうかを決定する上で重要な役割を果たす。
さらに、推論(推論に基づく)ソリューションは、複雑さのバイアスが低く、単一のアンカーに対する個々のマッピングを学習できる重要な要素である、と仮定する。
論文 参考訳(メタデータ) (2024-05-08T20:23:24Z) - When can transformers reason with abstract symbols? [25.63285482210457]
大規模なタスク群における関係推論タスクに対して、変換器は抽象的関係を学習し、テストセットに一般化する。
これは、古典的な完全接続ネットワークとは対照的に、我々は推論を学ぶのに失敗している。
論文 参考訳(メタデータ) (2023-10-15T06:45:38Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Few-shot Sequence Learning with Transformers [79.87875859408955]
少数のトレーニング例で提供される新しいタスクの学習を目的とした少数のショットアルゴリズム。
本研究では,データポイントがトークンのシーケンスである設定において,少数ショット学習を行う。
トランスフォーマーに基づく効率的な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-17T12:30:38Z) - CausalWorld: A Robotic Manipulation Benchmark for Causal Structure and
Transfer Learning [138.40338621974954]
CausalWorldは、ロボット操作環境における因果構造と伝達学習のベンチマークである。
タスクは、ブロックのセットから3D形状を構築することで構成される。
論文 参考訳(メタデータ) (2020-10-08T23:01:13Z) - A Trainable Optimal Transport Embedding for Feature Aggregation and its
Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。
我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文 参考訳(メタデータ) (2020-06-22T08:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。