論文の概要: Transformers Can Navigate Mazes With Multi-Step Prediction
- arxiv url: http://arxiv.org/abs/2412.05117v2
- Date: Wed, 18 Dec 2024 17:16:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 13:23:48.699515
- Title: Transformers Can Navigate Mazes With Multi-Step Prediction
- Title(参考訳): トランスフォーマーはマルチステップ予測で迷路をナビゲートできる
- Authors: Niklas Nolte, Ouail Kitouni, Adina Williams, Mike Rabbat, Mark Ibrahim,
- Abstract要約: トランスフォーマーは、長期計画に苦しむシーケンスで次のトークンを予測するように訓練された。
標準の次のシングルトークン予測目標は、複数のステップを先に予測する明確なメカニズムを提供しない。
本研究は,トランスフォーマーの迷路ナビゲーションを改善するために,複数のステップ(および後方)を明示的に予測できるかどうかを検討する。
- 参考スコア(独自算出の注目度): 23.617153487136093
- License:
- Abstract: Despite their remarkable success in language modeling, transformers trained to predict the next token in a sequence struggle with long-term planning. This limitation is particularly evident in tasks requiring foresight to plan multiple steps ahead such as maze navigation. The standard next single token prediction objective, however, offers no explicit mechanism to predict multiple steps ahead - or revisit the path taken so far. Consequently, in this work we study whether explicitly predicting multiple steps ahead (and backwards) can improve transformers' maze navigation. We train parameter-matched transformers from scratch, under identical settings, to navigate mazes of varying types and sizes with standard next token prediction and MLM-U, an objective explicitly predicting multiple steps ahead and backwards. We find that MLM-U considerably improves transformers' ability to navigate mazes compared to standard next token prediction across maze types and complexities. We also find MLM-U training is 4x more sample efficient and converges 2x faster in terms of GPU training hours relative to next token training. Finally, for more complex mazes we find MLM-U benefits from scaling to larger transformers. Remarkably, we find transformers trained with MLM-U outperform larger transformers trained with next token prediction using additional supervision from A* search traces. We hope these findings underscore the promise of learning objectives to advance transformers' capacity for long-term planning. The code can be found at https://github.com/facebookresearch/maze_navigation_MLMU
- Abstract(参考訳): 言語モデリングにおいて顕著な成功を収めたにもかかわらず、トランスフォーマーは長期計画に苦しむシークエンスで次のトークンを予測するように訓練された。
この制限は、迷路ナビゲーションのような複数のステップを前に計画する必要があるタスクにおいて特に顕著である。
しかし、標準の次のシングルトークン予測目標には、複数のステップを先に予測したり、これまでとったパスを再検討する明確なメカニズムがない。
そこで本研究では,トランスフォーマーの迷路ナビゲーションを改善するために,複数のステップ(および後方)を明示的に予測できるかどうかを検討した。
我々はパラメータマッチング変換器をスクラッチから同一の設定でトレーニングし、標準的な次のトークン予測とMLM-Uを用いて様々な種類の迷路をナビゲートする。
MLM-Uは、迷路型や複雑度にまたがる標準的な次のトークン予測と比較して、迷路をナビゲートするトランスフォーマーの能力を大幅に改善する。
また、MLM-Uトレーニングはサンプル効率が4倍高く、GPUトレーニング時間において次のトークントレーニングと比較して2倍早く収束する。
最後に、より複雑な迷路に対して、MLM-Uは大きな変圧器へのスケーリングの恩恵を受ける。
注目すべきは、MLM-Uで訓練されたトランスフォーマーは、A*検索トレースからのさらなる監視を用いて、次のトークン予測で訓練されたより大きなトランスフォーマーより優れていることである。
これらの知見は,トランスフォーマーの長期計画能力向上に向けた学習目標の公約を裏付けるものと期待する。
コードはhttps://github.com/facebookresearch/maze_navigation_MLMUにある。
関連論文リスト
- On Limitation of Transformer for Learning HMMs [31.128172929754058]
本稿では,隠れマルコフモデル(HMM)の学習における変換器の性能について検討する。
我々は,トランスフォーマーが,すべてのテスト済みHMMモデルに対して,トレーニング速度とテスト精度の両方で連続ニューラルネットワーク(Recurrent Neural Networks, RNN)の性能を一貫して低下させることを示した。
さらに,HMMのタイプと複雑さに基づいて,トランスフォーマーの深さと,それが効果的に学習できるシーケンス長との関係を明らかにした。
論文 参考訳(メタデータ) (2024-06-06T13:59:51Z) - Manifold-Preserving Transformers are Effective for Short-Long Range
Encoding [39.14128923434994]
マルチヘッドセルフアテンションベースのトランスフォーマーは、異なる学習タスクにおいて有望であることを示す。
本研究では,一対のトークン間の層間距離保存を理論的に保証するエンコーダモデルTransJectを提案する。
論文 参考訳(メタデータ) (2023-10-22T06:58:28Z) - iTransformer: Inverted Transformers Are Effective for Time Series Forecasting [62.40166958002558]
iTransformerを提案する。これは、逆次元に注意とフィードフォワードのネットワークを単純に適用する。
iTransformerモデルは、挑戦的な現実世界のデータセットの最先端を実現する。
論文 参考訳(メタデータ) (2023-10-10T13:44:09Z) - Learned Thresholds Token Merging and Pruning for Vision Transformers [5.141687309207561]
本稿では,トークンマージとトークンプルーニングの両方の長所を活用する新しいアプローチであるLTMP(Learned Thresholds token Merging and Pruning)を紹介する。
我々は、ImageNet分類タスクにおいて、視覚変換器に関する広範な実験を行い、我々のアプローチを実証する。
論文 参考訳(メタデータ) (2023-07-20T11:30:12Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - What Makes for Good Tokenizers in Vision Transformer? [62.44987486771936]
変圧器は自己注意を用いて対関係を抽出することができる。
優れたトークンライザとなるものは、コンピュータビジョンではよく理解されていない。
Tokens (MoTo) を横断する変調は、正規化によるトークン間モデリング機能を備えている。
TokenPropの正規化対象は、標準トレーニング体制で採用されている。
論文 参考訳(メタデータ) (2022-12-21T15:51:43Z) - HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling [126.89573619301953]
我々はHiViT(Hierarchical ViT)という階層型視覚変換器の新しい設計を提案する。
HiViTはMIMで高い効率と優れたパフォーマンスを享受する。
ImageNet-1K上でMAEを実行する場合、HiViT-BはViT-Bよりも0.6%精度が向上し、Swin-Bよりも1.9$times$スピードアップしたと報告している。
論文 参考訳(メタデータ) (2022-05-30T09:34:44Z) - Beyond Masking: Demystifying Token-Based Pre-Training for Vision
Transformers [122.01591448013977]
Masked Image Modeling (MIM) は下流タスクにおいて有望な結果を示した。
本稿では,欠落した内容を回復して学習する効果的な方法があるかどうかを考察する。
我々は、トークンベースのビジョントランスフォーマーの事前トレーニングに関するいくつかの設計原則を要約する。
この設計は、余分な計算コストを伴わない一連の下流認識タスクにおいて、MIMよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-03-27T14:23:29Z) - Flight Demand Forecasting with Transformers [0.0]
この研究は、より良いデータソースと堅牢な予測アルゴリズムという2つの重要な側面から予測精度を改善することを目指している。
変圧器の成功に触発された我々は,複数の地平線における戦略的出発需要を予測するために,この手法を採用した。
ケーススタディでは、TFTは従来の予測手法よりも大きなマージンで優れた性能を発揮することが示されている。
論文 参考訳(メタデータ) (2021-11-04T22:00:12Z) - Scalable Transformers for Neural Machine Translation [86.4530299266897]
トランスフォーマーは、そのキャパシティとシーケンス生成の並列トレーニングのため、ニューラルネットワーク翻訳(NMT)で広く採用されている。
本稿では,異なるスケールのサブトランスフォーマーを自然に含み,パラメータを共有できる,スケーラブルなトランスフォーマーを提案する。
スケーラブルトランスフォーマーのトレーニングの難しさに対処する3段階のトレーニングスキームが提案されている。
論文 参考訳(メタデータ) (2021-06-04T04:04:10Z) - Transformer Networks for Trajectory Forecasting [11.802437934289062]
本稿では,トランスフォーマーネットワークを用いた軌道予測手法を提案する。
これはLSTMの逐次ステップバイステップ処理からトランスフォーマーの唯一のアテンションベースのメモリ機構への根本的な切り替えである。
論文 参考訳(メタデータ) (2020-03-18T09:17:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。