論文の概要: Systematic Generalization and Emergent Structures in Transformers
Trained on Structured Tasks
- arxiv url: http://arxiv.org/abs/2210.00400v1
- Date: Sun, 2 Oct 2022 00:46:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 13:37:57.266464
- Title: Systematic Generalization and Emergent Structures in Transformers
Trained on Structured Tasks
- Title(参考訳): 構造化タスクによる変圧器の系統的一般化と創発的構造
- Authors: Yuxuan Li and James L. McClelland
- Abstract要約: 我々は、因果変換器が、コピー、ソート、階層的な構成を含む一連のアルゴリズムタスクを実行する方法を示す。
両層変換器は多層問題に対する一般化可能な解法を学習し,系統的タスク分解の兆候を現示する。
これらの結果は、トランスフォーマーモデルが複雑な決定を再利用可能なマルチレベルポリシーに分解する方法について、重要な洞察を与えてくれる。
- 参考スコア(独自算出の注目度): 6.525090891505941
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer networks have seen great success in natural language processing
and machine vision, where task objectives such as next word prediction and
image classification benefit from nuanced context sensitivity across
high-dimensional inputs. However, there is an ongoing debate about how and when
transformers can acquire highly structured behavior and achieve systematic
generalization. Here, we explore how well a causal transformer can perform a
set of algorithmic tasks, including copying, sorting, and hierarchical
compositions of these operations. We demonstrate strong generalization to
sequences longer than those used in training by replacing the standard
positional encoding typically used in transformers with labels arbitrarily
paired with items in the sequence. By finding the layer and head configuration
sufficient to solve the task, then performing ablation experiments and
representation analysis, we show that two-layer transformers learn
generalizable solutions to multi-level problems and develop signs of systematic
task decomposition. They also exploit shared computation across related tasks.
These results provide key insights into how transformer models may be capable
of decomposing complex decisions into reusable, multi-level policies in tasks
requiring structured behavior.
- Abstract(参考訳): トランスフォーマーネットワークは自然言語処理やマシンビジョンにおいて大きな成功を収めており、次の単語予測や画像分類といったタスク目的は、高次元入力に対するニュアンス付きコンテキスト感度から恩恵を受けている。
しかし、トランスフォーマーが高度に構造化された振る舞いを獲得し、体系的な一般化を実現する方法と時期について議論が続いている。
ここでは, 因果変換器が, それらの操作のコピー, ソート, 階層的構成など, アルゴリズム的な一連のタスクをいかにうまく実行するかを検討する。
トランスフォーマーに典型的に使用される標準位置符号化を、配列内の項目と任意にペアリングされたラベルに置き換えることで、トレーニングで使用されるものよりも長いシーケンスへの強い一般化を示す。
課題を解くのに十分な層と頭の設定を見つけ、アブレーション実験と表現解析を行うことで、2層トランスフォーマーが多層問題に対する一般化可能な解を学習し、系統的なタスク分解の兆候を示す。
また、関連するタスク間で共有計算を利用する。
これらの結果は、構造化された振る舞いを必要とするタスクにおいて、トランスフォーマーモデルが複雑な決定を再利用可能なマルチレベルポリシーに分解する方法に関する重要な洞察を提供する。
関連論文リスト
- In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。
本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2024-08-19T16:47:46Z) - Attention as a Hypernetwork [22.087242869138223]
トランスフォーマーは、トレーニング中に構成部品に遭遇した可能性があるが、構成が存在しない新しい問題インスタンスに一般化することができる。
マルチヘッドアテンションをハイパーネットワークとして再構成することにより、構成可能な低次元ラテント符号がキークエリ固有の操作を規定していることを明らかにする。
この潜在コードは、ネットワークが目に見えないタスク構成で実行するサブタスクの予測であることがわかった。
論文 参考訳(メタデータ) (2024-06-09T15:08:00Z) - Learning Syntax Without Planting Trees: Understanding When and Why Transformers Generalize Hierarchically [74.96551626420188]
自然言語データに基づいて訓練されたトランスフォーマーは、その階層構造を学習し、目に見えない構文構造を持つ文に一般化することが示されている。
本研究では,変圧器モデルにおける帰納バイアスの発生源と,そのような一般化行動を引き起こす可能性のあるトレーニングについて検討する。
論文 参考訳(メタデータ) (2024-04-25T07:10:29Z) - Compositional Capabilities of Autoregressive Transformers: A Study on
Synthetic, Interpretable Tasks [23.516986266146855]
我々は合成データ生成プロセスで自己回帰変換器モデルを訓練する。
自己回帰変換器は少量のトレーニングデータから構成構造を学習できることを示す。
論文 参考訳(メタデータ) (2023-11-21T21:16:54Z) - What Algorithms can Transformers Learn? A Study in Length Generalization [23.970598914609916]
アルゴリズムタスクにおける長さ一般化の具体的設定におけるトランスフォーマーの能力の範囲について検討する。
具体的には、Transformerの計算モデル用に設計されたプログラミング言語であるRASPを利用する。
我々の研究は、構成一般化のメカニズムとトランスフォーマーのアルゴリズム能力に関する新しい視点を提供する。
論文 参考訳(メタデータ) (2023-10-24T17:43:29Z) - Adaptivity and Modularity for Efficient Generalization Over Task
Complexity [42.748898521364914]
変圧器における適応型およびモジュラー型計算の機構を用いることで,逐次ステップ数に対する一般化を求めるタスクの学習が容易になるかを検討する。
本稿では,ハイパーネットワークからの動的関数生成とユニバーサルトランスの適応深度を組み合わせたHyper-UTアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-10-13T05:29:09Z) - When Can Transformers Ground and Compose: Insights from Compositional
Generalization Benchmarks [7.4726048754587415]
人間は、言語発話を現実世界に基礎づけながら、構成的に推論することができる。
ReaSCANのような最近のベンチマークでは、グリッドの世界に根ざしたナビゲーションタスクを使用して、ニューラルモデルが同様の機能を示すかどうかを評価する。
本稿では,ReaSCAN の特殊アーキテクチャと gSCAN の修正版を比較検討する。
論文 参考訳(メタデータ) (2022-10-23T17:03:55Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Inducing Transformer's Compositional Generalization Ability via
Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。
既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。
本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文 参考訳(メタデータ) (2021-09-30T16:41:19Z) - Thinking Like Transformers [64.96770952820691]
本稿では,プログラミング言語の形式で変換器エンコーダの計算モデルを提案する。
RASPは、トランスフォーマーによって確実に学習できるタスクの解決策をプログラムするのにどのように使えるかを示す。
ヒストグラム、ソート、ダイク言語のためのRASPプログラムを提供する。
論文 参考訳(メタデータ) (2021-06-13T13:04:46Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。