論文の概要: Transformers Can Navigate Mazes With Multi-Step Prediction
- arxiv url: http://arxiv.org/abs/2412.05117v2
- Date: Wed, 18 Dec 2024 17:16:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 13:23:48.699515
- Title: Transformers Can Navigate Mazes With Multi-Step Prediction
- Title(参考訳): トランスフォーマーはマルチステップ予測で迷路をナビゲートできる
- Authors: Niklas Nolte, Ouail Kitouni, Adina Williams, Mike Rabbat, Mark Ibrahim,
- Abstract要約: トランスフォーマーは、長期計画に苦しむシーケンスで次のトークンを予測するように訓練された。
標準の次のシングルトークン予測目標は、複数のステップを先に予測する明確なメカニズムを提供しない。
本研究は,トランスフォーマーの迷路ナビゲーションを改善するために,複数のステップ(および後方)を明示的に予測できるかどうかを検討する。
- 参考スコア(独自算出の注目度): 23.617153487136093
- License:
- Abstract: Despite their remarkable success in language modeling, transformers trained to predict the next token in a sequence struggle with long-term planning. This limitation is particularly evident in tasks requiring foresight to plan multiple steps ahead such as maze navigation. The standard next single token prediction objective, however, offers no explicit mechanism to predict multiple steps ahead - or revisit the path taken so far. Consequently, in this work we study whether explicitly predicting multiple steps ahead (and backwards) can improve transformers' maze navigation. We train parameter-matched transformers from scratch, under identical settings, to navigate mazes of varying types and sizes with standard next token prediction and MLM-U, an objective explicitly predicting multiple steps ahead and backwards. We find that MLM-U considerably improves transformers' ability to navigate mazes compared to standard next token prediction across maze types and complexities. We also find MLM-U training is 4x more sample efficient and converges 2x faster in terms of GPU training hours relative to next token training. Finally, for more complex mazes we find MLM-U benefits from scaling to larger transformers. Remarkably, we find transformers trained with MLM-U outperform larger transformers trained with next token prediction using additional supervision from A* search traces. We hope these findings underscore the promise of learning objectives to advance transformers' capacity for long-term planning. The code can be found at https://github.com/facebookresearch/maze_navigation_MLMU
- Abstract(参考訳): 言語モデリングにおいて顕著な成功を収めたにもかかわらず、トランスフォーマーは長期計画に苦しむシークエンスで次のトークンを予測するように訓練された。
この制限は、迷路ナビゲーションのような複数のステップを前に計画する必要があるタスクにおいて特に顕著である。
しかし、標準の次のシングルトークン予測目標には、複数のステップを先に予測したり、これまでとったパスを再検討する明確なメカニズムがない。
そこで本研究では,トランスフォーマーの迷路ナビゲーションを改善するために,複数のステップ(および後方)を明示的に予測できるかどうかを検討した。
我々はパラメータマッチング変換器をスクラッチから同一の設定でトレーニングし、標準的な次のトークン予測とMLM-Uを用いて様々な種類の迷路をナビゲートする。
MLM-Uは、迷路型や複雑度にまたがる標準的な次のトークン予測と比較して、迷路をナビゲートするトランスフォーマーの能力を大幅に改善する。
また、MLM-Uトレーニングはサンプル効率が4倍高く、GPUトレーニング時間において次のトークントレーニングと比較して2倍早く収束する。
最後に、より複雑な迷路に対して、MLM-Uは大きな変圧器へのスケーリングの恩恵を受ける。
注目すべきは、MLM-Uで訓練されたトランスフォーマーは、A*検索トレースからのさらなる監視を用いて、次のトークン予測で訓練されたより大きなトランスフォーマーより優れていることである。
これらの知見は,トランスフォーマーの長期計画能力向上に向けた学習目標の公約を裏付けるものと期待する。
コードはhttps://github.com/facebookresearch/maze_navigation_MLMUにある。
関連論文リスト
- The Belief State Transformer [50.196123952714245]
ビリーフ状態変換器(Belief State Transformer)は、接頭辞と接尾辞の両方を入力として取る次世代の予測器である。
従来のフォワードオンリーのトランスフォーマーが抱える課題を効果的に解決する。
論文 参考訳(メタデータ) (2024-10-30T23:26:06Z) - FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - Can Transformers Learn $n$-gram Language Models? [77.35809823602307]
2種類のランダムな$n$-gram LMを学習するトランスフォーマーの能力について検討する。
例えば、$n$-gram LMに対する古典的な推定手法として、add-$lambda$ smoothing outperform transformerがある。
論文 参考訳(メタデータ) (2024-10-03T21:21:02Z) - Emu3: Next-Token Prediction is All You Need [45.142268281651035]
Emu3は、次世代の予測だけで訓練された最先端のマルチモーダルモデルスイートである。
Emu3は、生成タスクと知覚タスクの両方において、確立されたタスク固有モデルよりも優れています。
また、ビデオシーケンス内の次のトークンを予測することによって、高忠実度ビデオを生成することもできる。
論文 参考訳(メタデータ) (2024-09-27T16:06:11Z) - How do Transformers perform In-Context Autoregressive Learning? [76.18489638049545]
簡単な次のトークン予測タスクでTransformerモデルをトレーニングする。
トレーニングされたTransformerが、まず$W$ in-contextを学習し、次に予測マッピングを適用することで、次のトークンを予測する方法を示す。
論文 参考訳(メタデータ) (2024-02-08T16:24:44Z) - Manifold-Preserving Transformers are Effective for Short-Long Range
Encoding [39.14128923434994]
マルチヘッドセルフアテンションベースのトランスフォーマーは、異なる学習タスクにおいて有望であることを示す。
本研究では,一対のトークン間の層間距離保存を理論的に保証するエンコーダモデルTransJectを提案する。
論文 参考訳(メタデータ) (2023-10-22T06:58:28Z) - Learned Thresholds Token Merging and Pruning for Vision Transformers [5.141687309207561]
本稿では,トークンマージとトークンプルーニングの両方の長所を活用する新しいアプローチであるLTMP(Learned Thresholds token Merging and Pruning)を紹介する。
我々は、ImageNet分類タスクにおいて、視覚変換器に関する広範な実験を行い、我々のアプローチを実証する。
論文 参考訳(メタデータ) (2023-07-20T11:30:12Z) - MixFormerV2: Efficient Fully Transformer Tracking [49.07428299165031]
トランスフォーマーベースのトラッカーは標準ベンチマークで高い精度を実現している。
しかし、その効率性は、GPUとCPUプラットフォームの両方での実践的なデプロイの障害であり続けている。
本稿では,EmphMixFormerV2と呼ばれるフルトランスフォーマートラッキングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-25T09:50:54Z) - Multi-Tailed Vision Transformer for Efficient Inference [44.43126137573205]
Vision Transformer (ViT) は画像認識において有望な性能を達成した。
本稿では,MT-ViT(Multi-Tailed Vision Transformer)を提案する。
MT-ViTは、以下のTransformerエンコーダのために異なる長さの視覚シーケンスを生成するために複数のテールを採用する。
論文 参考訳(メタデータ) (2022-03-03T09:30:55Z) - Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。
Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文 参考訳(メタデータ) (2020-06-05T05:16:23Z) - Transformer Networks for Trajectory Forecasting [11.802437934289062]
本稿では,トランスフォーマーネットワークを用いた軌道予測手法を提案する。
これはLSTMの逐次ステップバイステップ処理からトランスフォーマーの唯一のアテンションベースのメモリ機構への根本的な切り替えである。
論文 参考訳(メタデータ) (2020-03-18T09:17:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。