論文の概要: When can transformers compositionally generalize in-context?
- arxiv url: http://arxiv.org/abs/2407.12275v1
- Date: Wed, 17 Jul 2024 02:49:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 18:38:37.226245
- Title: When can transformers compositionally generalize in-context?
- Title(参考訳): 変換器はコンテクスト内でどのように一般化できるのか?
- Authors: Seijin Kobayashi, Simon Schug, Yassir Akram, Florian Redhardt, Johannes von Oswald, Razvan Pascanu, Guillaume Lajoie, João Sacramento,
- Abstract要約: 本研究では,データ生成プロセスにおける構成構造を正確に制御できるモジュール型マルチタスク設定について検討する。
本研究は,この課題に対して,文脈内で学習するトランスフォーマーが,原理的に十分表現できるにもかかわらず,構成的に一般化する上で苦労する証拠を提示する。
- 参考スコア(独自算出の注目度): 28.997058571942045
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Many tasks can be composed from a few independent components. This gives rise to a combinatorial explosion of possible tasks, only some of which might be encountered during training. Under what circumstances can transformers compositionally generalize from a subset of tasks to all possible combinations of tasks that share similar components? Here we study a modular multitask setting that allows us to precisely control compositional structure in the data generation process. We present evidence that transformers learning in-context struggle to generalize compositionally on this task despite being in principle expressive enough to do so. Compositional generalization becomes possible only when introducing a bottleneck that enforces an explicit separation between task inference and task execution.
- Abstract(参考訳): 多くのタスクはいくつかの独立したコンポーネントから構成できる。
これにより、可能なタスクが組み合わさって爆発し、トレーニング中に遭遇する可能性のあるタスクのいくつかのみが発生します。
どのような状況下で、トランスフォーマーは、タスクのサブセットから、同様のコンポーネントを共有するタスクの可能なすべての組み合わせまで、構成的に一般化できますか?
本稿では,データ生成プロセスにおける構成構造を正確に制御できるモジュール型マルチタスク設定について検討する。
本研究は,この課題に対して,文脈内で学習するトランスフォーマーが,原理的に十分表現できるにもかかわらず,構成的に一般化する上で苦労する証拠を提示する。
構成的一般化は、タスク推論とタスク実行を明確に分離するボトルネックを導入する場合にのみ可能になる。
関連論文リスト
- Attention as a Hypernetwork [22.087242869138223]
トランスフォーマーは、トレーニング中に構成部品に遭遇した可能性があるが、構成が存在しない新しい問題インスタンスに一般化することができる。
マルチヘッドアテンションをハイパーネットワークとして再構成することにより、構成可能な低次元ラテント符号がキークエリ固有の操作を規定していることを明らかにする。
この潜在コードは、ネットワークが目に見えないタスク構成で実行するサブタスクの予測であることがわかった。
論文 参考訳(メタデータ) (2024-06-09T15:08:00Z) - Discovering modular solutions that generalize compositionally [55.46688816816882]
実演から純粋に線形変換までを識別することは、指数関数的な数の加群の組み合わせを学習することなく可能であることを示す。
さらに, 有限データからのメタラーニングにより, 多くの複雑な環境において, 構成を一般化するモジュラーポリシが発見可能であることを実証的に実証した。
論文 参考訳(メタデータ) (2023-12-22T16:33:50Z) - Compositional Capabilities of Autoregressive Transformers: A Study on
Synthetic, Interpretable Tasks [23.516986266146855]
我々は合成データ生成プロセスで自己回帰変換器モデルを訓練する。
自己回帰変換器は少量のトレーニングデータから構成構造を学習できることを示す。
論文 参考訳(メタデータ) (2023-11-21T21:16:54Z) - Divide et Impera: Multi-Transformer Architectures for Complex NLP-Tasks [44.99833362998488]
複雑なタスクを単純なサブタスクに分割する手法を提案する。
複数のトランスモデルは、それぞれ1つのサブタスクに微調整され、複雑なタスクを達成するために並べられる。
これにより、微調整データセットのコンパイルが簡単になり、全体的な可制御性が向上する。
論文 参考訳(メタデータ) (2023-10-25T18:00:15Z) - Systematic Generalization and Emergent Structures in Transformers
Trained on Structured Tasks [6.525090891505941]
我々は、因果変換器が、コピー、ソート、階層的な構成を含む一連のアルゴリズムタスクを実行する方法を示す。
両層変換器は多層問題に対する一般化可能な解法を学習し,系統的タスク分解の兆候を現示する。
これらの結果は、トランスフォーマーモデルが複雑な決定を再利用可能なマルチレベルポリシーに分解する方法について、重要な洞察を与えてくれる。
論文 参考訳(メタデータ) (2022-10-02T00:46:36Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Modular Adaptive Policy Selection for Multi-Task Imitation Learning
through Task Division [60.232542918414985]
マルチタスク学習は、しばしば負の伝達に悩まされ、タスク固有の情報を共有する。
これは、プロトポリケーションをモジュールとして使用して、タスクを共有可能な単純なサブ振る舞いに分割する。
また、タスクを共有サブ行動とタスク固有のサブ行動の両方に自律的に分割する能力を示す。
論文 参考訳(メタデータ) (2022-03-28T15:53:17Z) - Policy Architectures for Compositional Generalization in Control [71.61675703776628]
本稿では,タスクにおけるエンティティベースの構成構造をモデル化するためのフレームワークを提案する。
私たちのポリシーは柔軟で、アクションプリミティブを必要とせずにエンドツーエンドでトレーニングできます。
論文 参考訳(メタデータ) (2022-03-10T06:44:24Z) - Meta-Learning to Compositionally Generalize [34.656819307701156]
教師あり学習のメタラーニング拡張版を実装した。
既存のトレーニングデータをサブサンプリングすることでメタ学習のためのタスクのペアを構築する。
COGSおよびSCANデータセットの実験結果から、類似性駆動型メタラーニングにより一般化性能が向上することが示された。
論文 参考訳(メタデータ) (2021-06-08T11:21:48Z) - CausalWorld: A Robotic Manipulation Benchmark for Causal Structure and
Transfer Learning [138.40338621974954]
CausalWorldは、ロボット操作環境における因果構造と伝達学習のベンチマークである。
タスクは、ブロックのセットから3D形状を構築することで構成される。
論文 参考訳(メタデータ) (2020-10-08T23:01:13Z) - OCEAN: Online Task Inference for Compositional Tasks with Context
Adaptation [150.1979017130774]
構成タスクに対するオンラインタスク推論を行うための変分推論フレームワークを提案する。
本フレームワークは,タスク構造に関する事前の知識に基づいて,柔軟な潜伏分布をサポートし,教師なしで訓練することができる。
論文 参考訳(メタデータ) (2020-08-17T04:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。