Fugu-MT 論文翻訳(概要): When can transformers reason with abstract symbols?

論文の概要: When can transformers reason with abstract symbols?

arxiv url: http://arxiv.org/abs/2310.09753v1
Date: Sun, 15 Oct 2023 06:45:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-17 18:18:56.466118
Title: When can transformers reason with abstract symbols?
Title（参考訳）: トランスフォーマーはいつ抽象記号で推論できるのか?
Authors: Enric Boix-Adsera and Omid Saremi and Emmanuel Abbe and Samy Bengio and Etai Littwin and Joshua Susskind
Abstract要約: 抽象記号を含む関係推論タスクにおける変換器大言語モデル(LLM)の機能について検討する。 i)回帰タスクの場合、トランスフォーマーはトレーニング時に一般化するが、驚くべきほど大量のトレーニングデータを必要とすることが証明される。二) 記号ラベル付き次トーケン予測タスクに対しては、「逆スケーリング法則」が示される: 変換器は埋め込み次元が増加するにつれて一般化に失敗する。
参考スコア（独自算出の注目度）: 27.160978515105533
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We investigate the capabilities of transformer large language models (LLMs) on relational reasoning tasks involving abstract symbols. Such tasks have long been studied in the neuroscience literature as fundamental building blocks for more complex abilities in programming, mathematics, and verbal reasoning. For (i) regression tasks, we prove that transformers generalize when trained, but require astonishingly large quantities of training data. For (ii) next-token-prediction tasks with symbolic labels, we show an "inverse scaling law": transformers fail to generalize as their embedding dimension increases. For both settings (i) and (ii), we propose subtle transformer modifications which can reduce the amount of data needed by adding two trainable parameters per head.
Abstract（参考訳）: 抽象記号を含む関係推論タスクにおけるトランスフォーマティブ大言語モデル(llms)の機能について検討する。このようなタスクは、プログラミング、数学、言語推論におけるより複雑な能力の基本的な構成要素として、神経科学の文献で長い間研究されてきた。のために (i)回帰タスクでは,トランスフォーマはトレーニング時に一般化するが,驚くほど大量のトレーニングデータを必要とすることが証明される。のために (ii) シンボリックラベル付き次の予測タスクでは、トランスフォーマは埋め込み次元が増加するにつれて一般化しない「逆スケーリング則」を示す。両方の設定 (i)および (II) 頭部に2つのトレーニング可能なパラメータを加えることで、必要なデータ量を削減できる微妙なトランスフォーマー修正を提案する。

関連論文リスト

Transformers for Learning on Noisy and Task-Level Manifolds: Approximation and Generalization Insights [47.62295798627317]
この研究は、多様体上のノイズの多い入力データを含む回帰タスクにおける変換器の性能を分析することによって理論的基礎を確立する。我々は、多様体の内在次元に決定的に依存する近似と一般化誤差を証明した。この結果から,入力データに高次元ノイズが伴う場合においても,学習課題における低複雑さ構造を活用できることが示唆された。
論文参考訳（メタデータ） (2025-05-06T05:41:46Z)
Are Transformers Able to Reason by Connecting Separated Knowledge in Training Data? [55.90575874130038]
人間は、様々な情報源からの知識を統合することで、顕著な構成的推論を示す。本稿では,このスキルを再現する上でのトランスフォーマーの可能性を検証するための合成学習タスクを提案する。数発のChain-of-Thoughtプロンプトにより、TransformersはFTCT上でコンストラクショナル推論を行うことができる。
論文参考訳（メタデータ） (2025-01-27T08:34:38Z)
A Theory for Compressibility of Graph Transformers for Transductive Learning [6.298115235439078]
グラフ上のトランスダクティブタスクは、典型的な教師付き機械学習タスクと根本的に異なる。すべてのトレイン/テスト/バリデーションサンプルは、トレーニング中に存在しており、半教師付きタスクに似ています。我々は、これらのネットワークの隠れた次元をどのように圧縮できるかという理論的な境界を定めている。
論文参考訳（メタデータ） (2024-11-20T04:20:17Z)
Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文参考訳（メタデータ） (2024-09-28T13:24:11Z)
In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文参考訳（メタデータ） (2024-08-19T16:47:46Z)
Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文参考訳（メタデータ） (2024-06-24T23:00:58Z)
Pretraining Data Mixtures Enable Narrow Model Selection Capabilities in Transformer Models [9.340409961107955]
トランスフォーマーモデルには、コンテキスト内学習(ICL)を実行する驚くべき能力がある本研究は, トランスフォーマーが事前学習データ混合物間の橋渡しを効果的に行う方法について検討する。以上の結果から,高容量シーケンスモデルの印象的なICL能力は,インダクティブバイアスよりも事前学習データ混合のカバレッジに密接に関係している可能性が示唆された。
論文参考訳（メタデータ） (2023-11-01T21:41:08Z)
Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文参考訳（メタデータ） (2023-06-26T17:58:50Z)
Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文参考訳（メタデータ） (2022-12-15T09:21:21Z)
On the Effect of Pre-training for Transformer in Different Modality on Offline Reinforcement Learning [0.0]
本研究は,トランスフォーマーモデルからムジョコのオフライン強化学習タスクへの微調整に,言語や視覚などの異なるモーダルデータの事前学習がどのような影響を及ぼすかを検討する。
論文参考訳（メタデータ） (2022-11-17T13:34:08Z)
Unveiling Transformers with LEGO: a synthetic reasoning task [23.535488809197787]
我々は、トランスフォーマーアーキテクチャが推論の連鎖に従うことを学ぶ方法について研究する。一部のデータ構造では、訓練されたトランスフォーマーは、推論の連鎖に従う"ショートカット"ソリューションを見つける。このようなショートカットが適切なアーキテクチャ修正やデータ準備によって防止できることが分かりました。
論文参考訳（メタデータ） (2022-06-09T06:30:17Z)
Category-Learning with Context-Augmented Autoencoder [63.05016513788047]
実世界のデータの解釈可能な非冗長表現を見つけることは、機械学習の鍵となる問題の一つである。本稿では,オートエンコーダのトレーニングにデータ拡張を利用する新しい手法を提案する。このような方法で変分オートエンコーダを訓練し、補助ネットワークによって変換結果を予測できるようにする。
論文参考訳（メタデータ） (2020-10-10T14:04:44Z)
Do Syntax Trees Help Pre-trained Transformers Extract Information? [8.133145094593502]
本稿では,情報抽出タスクにおいて,依存木を事前学習した変換器に組み込むことの有用性について検討する。依存関係構造を組み込むための2つの異なる戦略を提案し,検討する。それらの性能向上は,人間による注釈付き依存関係解析の可用性に大きく影響していることがわかった。
論文参考訳（メタデータ） (2020-08-20T17:17:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。