論文の概要: When can transformers reason with abstract symbols?
- arxiv url: http://arxiv.org/abs/2310.09753v1
- Date: Sun, 15 Oct 2023 06:45:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 18:18:56.466118
- Title: When can transformers reason with abstract symbols?
- Title(参考訳): トランスフォーマーはいつ抽象記号で推論できるのか?
- Authors: Enric Boix-Adsera and Omid Saremi and Emmanuel Abbe and Samy Bengio
and Etai Littwin and Joshua Susskind
- Abstract要約: 抽象記号を含む関係推論タスクにおける変換器大言語モデル(LLM)の機能について検討する。
i)回帰タスクの場合、トランスフォーマーはトレーニング時に一般化するが、驚くべきほど大量のトレーニングデータを必要とすることが証明される。
二) 記号ラベル付き次トーケン予測タスクに対しては、「逆スケーリング法則」が示される: 変換器は埋め込み次元が増加するにつれて一般化に失敗する。
- 参考スコア(独自算出の注目度): 27.160978515105533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the capabilities of transformer large language models (LLMs)
on relational reasoning tasks involving abstract symbols. Such tasks have long
been studied in the neuroscience literature as fundamental building blocks for
more complex abilities in programming, mathematics, and verbal reasoning. For
(i) regression tasks, we prove that transformers generalize when trained, but
require astonishingly large quantities of training data. For (ii)
next-token-prediction tasks with symbolic labels, we show an "inverse scaling
law": transformers fail to generalize as their embedding dimension increases.
For both settings (i) and (ii), we propose subtle transformer modifications
which can reduce the amount of data needed by adding two trainable parameters
per head.
- Abstract(参考訳): 抽象記号を含む関係推論タスクにおけるトランスフォーマティブ大言語モデル(llms)の機能について検討する。
このようなタスクは、プログラミング、数学、言語推論におけるより複雑な能力の基本的な構成要素として、神経科学の文献で長い間研究されてきた。
のために
(i)回帰タスクでは,トランスフォーマはトレーニング時に一般化するが,驚くほど大量のトレーニングデータを必要とすることが証明される。
のために
(ii) シンボリックラベル付き次の予測タスクでは、トランスフォーマは埋め込み次元が増加するにつれて一般化しない「逆スケーリング則」を示す。
両方の設定
(i)および
(II) 頭部に2つのトレーニング可能なパラメータを加えることで、必要なデータ量を削減できる微妙なトランスフォーマー修正を提案する。
関連論文リスト
- Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。
この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文 参考訳(メタデータ) (2024-09-28T13:24:11Z) - In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。
本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2024-08-19T16:47:46Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Pretraining Data Mixtures Enable Narrow Model Selection Capabilities in
Transformer Models [9.340409961107955]
トランスフォーマーモデルには、コンテキスト内学習(ICL)を実行する驚くべき能力がある
本研究は, トランスフォーマーが事前学習データ混合物間の橋渡しを効果的に行う方法について検討する。
以上の結果から,高容量シーケンスモデルの印象的なICL能力は,インダクティブバイアスよりも事前学習データ混合のカバレッジに密接に関係している可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-01T21:41:08Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - On the Effect of Pre-training for Transformer in Different Modality on
Offline Reinforcement Learning [0.0]
本研究は,トランスフォーマーモデルからムジョコのオフライン強化学習タスクへの微調整に,言語や視覚などの異なるモーダルデータの事前学習がどのような影響を及ぼすかを検討する。
論文 参考訳(メタデータ) (2022-11-17T13:34:08Z) - Unveiling Transformers with LEGO: a synthetic reasoning task [23.535488809197787]
我々は、トランスフォーマーアーキテクチャが推論の連鎖に従うことを学ぶ方法について研究する。
一部のデータ構造では、訓練されたトランスフォーマーは、推論の連鎖に従う"ショートカット"ソリューションを見つける。
このようなショートカットが適切なアーキテクチャ修正やデータ準備によって防止できることが分かりました。
論文 参考訳(メタデータ) (2022-06-09T06:30:17Z) - Category-Learning with Context-Augmented Autoencoder [63.05016513788047]
実世界のデータの解釈可能な非冗長表現を見つけることは、機械学習の鍵となる問題の一つである。
本稿では,オートエンコーダのトレーニングにデータ拡張を利用する新しい手法を提案する。
このような方法で変分オートエンコーダを訓練し、補助ネットワークによって変換結果を予測できるようにする。
論文 参考訳(メタデータ) (2020-10-10T14:04:44Z) - Do Syntax Trees Help Pre-trained Transformers Extract Information? [8.133145094593502]
本稿では,情報抽出タスクにおいて,依存木を事前学習した変換器に組み込むことの有用性について検討する。
依存関係構造を組み込むための2つの異なる戦略を提案し,検討する。
それらの性能向上は,人間による注釈付き依存関係解析の可用性に大きく影響していることがわかった。
論文 参考訳(メタデータ) (2020-08-20T17:17:38Z) - Gradient-Based Adversarial Training on Transformer Networks for
Detecting Check-Worthy Factual Claims [3.7543966923106438]
本稿では,最初の逆正則変換型クレームスポッタモデルを提案する。
現在の最先端モデルよりもF1スコアが4.70ポイント向上した。
本稿では,変換器モデルに逆学習を適用する手法を提案する。
論文 参考訳(メタデータ) (2020-02-18T16:51:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。