Fugu-MT 論文翻訳(概要): Transformers Can Navigate Mazes With Multi-Step Prediction

論文の概要: Transformers Can Navigate Mazes With Multi-Step Prediction

arxiv url: http://arxiv.org/abs/2412.05117v2
Date: Wed, 18 Dec 2024 17:16:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-19 18:59:49.045206
Title: Transformers Can Navigate Mazes With Multi-Step Prediction
Title（参考訳）: トランスフォーマーはマルチステップ予測で迷路をナビゲートできる
Authors: Niklas Nolte, Ouail Kitouni, Adina Williams, Mike Rabbat, Mark Ibrahim,
Abstract要約: トランスフォーマーは、長期計画に苦しむシーケンスで次のトークンを予測するように訓練された。標準の次のシングルトークン予測目標は、複数のステップを先に予測する明確なメカニズムを提供しない。本研究は,トランスフォーマーの迷路ナビゲーションを改善するために,複数のステップ(および後方)を明示的に予測できるかどうかを検討する。
参考スコア（独自算出の注目度）: 23.617153487136093
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite their remarkable success in language modeling, transformers trained to predict the next token in a sequence struggle with long-term planning. This limitation is particularly evident in tasks requiring foresight to plan multiple steps ahead such as maze navigation. The standard next single token prediction objective, however, offers no explicit mechanism to predict multiple steps ahead - or revisit the path taken so far. Consequently, in this work we study whether explicitly predicting multiple steps ahead (and backwards) can improve transformers' maze navigation. We train parameter-matched transformers from scratch, under identical settings, to navigate mazes of varying types and sizes with standard next token prediction and MLM-U, an objective explicitly predicting multiple steps ahead and backwards. We find that MLM-U considerably improves transformers' ability to navigate mazes compared to standard next token prediction across maze types and complexities. We also find MLM-U training is 4x more sample efficient and converges 2x faster in terms of GPU training hours relative to next token training. Finally, for more complex mazes we find MLM-U benefits from scaling to larger transformers. Remarkably, we find transformers trained with MLM-U outperform larger transformers trained with next token prediction using additional supervision from A* search traces. We hope these findings underscore the promise of learning objectives to advance transformers' capacity for long-term planning. The code can be found at https://github.com/facebookresearch/maze_navigation_MLMU
Abstract（参考訳）: 言語モデリングにおいて顕著な成功を収めたにもかかわらず、トランスフォーマーは長期計画に苦しむシークエンスで次のトークンを予測するように訓練された。この制限は、迷路ナビゲーションのような複数のステップを前に計画する必要があるタスクにおいて特に顕著である。しかし、標準の次のシングルトークン予測目標には、複数のステップを先に予測したり、これまでとったパスを再検討する明確なメカニズムがない。そこで本研究では,トランスフォーマーの迷路ナビゲーションを改善するために,複数のステップ(および後方)を明示的に予測できるかどうかを検討した。我々はパラメータマッチング変換器をスクラッチから同一の設定でトレーニングし、標準的な次のトークン予測とMLM-Uを用いて様々な種類の迷路をナビゲートする。 MLM-Uは、迷路型や複雑度にまたがる標準的な次のトークン予測と比較して、迷路をナビゲートするトランスフォーマーの能力を大幅に改善する。また、MLM-Uトレーニングはサンプル効率が4倍高く、GPUトレーニング時間において次のトークントレーニングと比較して2倍早く収束する。最後に、より複雑な迷路に対して、MLM-Uは大きな変圧器へのスケーリングの恩恵を受ける。注目すべきは、MLM-Uで訓練されたトランスフォーマーは、A*検索トレースからのさらなる監視を用いて、次のトークン予測で訓練されたより大きなトランスフォーマーより優れていることである。これらの知見は,トランスフォーマーの長期計画能力向上に向けた学習目標の公約を裏付けるものと期待する。コードはhttps://github.com/facebookresearch/maze_navigation_MLMUにある。

関連論文リスト

HT-Transformer: Event Sequences Classification by Accumulating Prefix Information with History Tokens [1.534667887016089]
本稿では,予測事前学習における履歴情報の蓄積を促進する新しい概念であるヒストリトークンを紹介する。当社のアプローチはトランスフォーマーベースのモデルを大幅に改善し、金融、eコマース、ヘルスケアタスクにおいて素晴らしい成果を上げています。
論文参考訳（メタデータ） (2025-08-02T19:50:58Z)
The Belief State Transformer [50.196123952714245]
ビリーフ状態変換器(Belief State Transformer)は、接頭辞と接尾辞の両方を入力として取る次世代の予測器である。従来のフォワードオンリーのトランスフォーマーが抱える課題を効果的に解決する。
論文参考訳（メタデータ） (2024-10-30T23:26:06Z)
FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文参考訳（メタデータ） (2024-10-27T15:53:49Z)
Can Transformers Learn $n$-gram Language Models? [77.35809823602307]
2種類のランダムな$n$-gram LMを学習するトランスフォーマーの能力について検討する。例えば、$n$-gram LMに対する古典的な推定手法として、add-$lambda$ smoothing outperform transformerがある。
論文参考訳（メタデータ） (2024-10-03T21:21:02Z)
Emu3: Next-Token Prediction is All You Need [45.142268281651035]
Emu3は、次世代の予測だけで訓練された最先端のマルチモーダルモデルスイートである。 Emu3は、生成タスクと知覚タスクの両方において、確立されたタスク固有モデルよりも優れています。また、ビデオシーケンス内の次のトークンを予測することによって、高忠実度ビデオを生成することもできる。
論文参考訳（メタデータ） (2024-09-27T16:06:11Z)
On Limitation of Transformer for Learning HMMs [31.128172929754058]
本稿では,隠れマルコフモデル(HMM)の学習における変換器の性能について検討する。我々は,トランスフォーマーが,すべてのテスト済みHMMモデルに対して,トレーニング速度とテスト精度の両方で連続ニューラルネットワーク(Recurrent Neural Networks, RNN)の性能を一貫して低下させることを示した。さらに,HMMのタイプと複雑さに基づいて,トランスフォーマーの深さと,それが効果的に学習できるシーケンス長との関係を明らかにした。
論文参考訳（メタデータ） (2024-06-06T13:59:51Z)
Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文参考訳（メタデータ） (2024-04-18T09:17:06Z)
How do Transformers perform In-Context Autoregressive Learning? [76.18489638049545]
簡単な次のトークン予測タスクでTransformerモデルをトレーニングする。トレーニングされたTransformerが、まず$W$ in-contextを学習し、次に予測マッピングを適用することで、次のトークンを予測する方法を示す。
論文参考訳（メタデータ） (2024-02-08T16:24:44Z)
Manifold-Preserving Transformers are Effective for Short-Long Range Encoding [39.14128923434994]
マルチヘッドセルフアテンションベースのトランスフォーマーは、異なる学習タスクにおいて有望であることを示す。本研究では,一対のトークン間の層間距離保存を理論的に保証するエンコーダモデルTransJectを提案する。
論文参考訳（メタデータ） (2023-10-22T06:58:28Z)
iTransformer: Inverted Transformers Are Effective for Time Series Forecasting [62.40166958002558]
iTransformerを提案する。これは、逆次元に注意とフィードフォワードのネットワークを単純に適用する。 iTransformerモデルは、挑戦的な現実世界のデータセットの最先端を実現する。
論文参考訳（メタデータ） (2023-10-10T13:44:09Z)
Learned Thresholds Token Merging and Pruning for Vision Transformers [5.141687309207561]
本稿では,トークンマージとトークンプルーニングの両方の長所を活用する新しいアプローチであるLTMP(Learned Thresholds token Merging and Pruning)を紹介する。我々は、ImageNet分類タスクにおいて、視覚変換器に関する広範な実験を行い、我々のアプローチを実証する。
論文参考訳（メタデータ） (2023-07-20T11:30:12Z)
Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文参考訳（メタデータ） (2023-05-26T00:43:02Z)
MixFormerV2: Efficient Fully Transformer Tracking [49.07428299165031]
トランスフォーマーベースのトラッカーは標準ベンチマークで高い精度を実現している。しかし、その効率性は、GPUとCPUプラットフォームの両方での実践的なデプロイの障害であり続けている。本稿では,EmphMixFormerV2と呼ばれるフルトランスフォーマートラッキングフレームワークを提案する。
論文参考訳（メタデータ） (2023-05-25T09:50:54Z)
HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling [126.89573619301953]
我々はHiViT(Hierarchical ViT)という階層型視覚変換器の新しい設計を提案する。 HiViTはMIMで高い効率と優れたパフォーマンスを享受する。 ImageNet-1K上でMAEを実行する場合、HiViT-BはViT-Bよりも0.6%精度が向上し、Swin-Bよりも1.9$times$スピードアップしたと報告している。
論文参考訳（メタデータ） (2022-05-30T09:34:44Z)
Multi-Tailed Vision Transformer for Efficient Inference [44.43126137573205]
Vision Transformer (ViT) は画像認識において有望な性能を達成した。本稿では,MT-ViT(Multi-Tailed Vision Transformer)を提案する。 MT-ViTは、以下のTransformerエンコーダのために異なる長さの視覚シーケンスを生成するために複数のテールを採用する。
論文参考訳（メタデータ） (2022-03-03T09:30:55Z)
Flight Demand Forecasting with Transformers [0.0]
この研究は、より良いデータソースと堅牢な予測アルゴリズムという2つの重要な側面から予測精度を改善することを目指している。変圧器の成功に触発された我々は,複数の地平線における戦略的出発需要を予測するために,この手法を採用した。ケーススタディでは、TFTは従来の予測手法よりも大きなマージンで優れた性能を発揮することが示されている。
論文参考訳（メタデータ） (2021-11-04T22:00:12Z)
Scalable Transformers for Neural Machine Translation [86.4530299266897]
トランスフォーマーは、そのキャパシティとシーケンス生成の並列トレーニングのため、ニューラルネットワーク翻訳(NMT)で広く採用されている。本稿では,異なるスケールのサブトランスフォーマーを自然に含み,パラメータを共有できる,スケーラブルなトランスフォーマーを提案する。スケーラブルトランスフォーマーのトレーニングの難しさに対処する3段階のトレーニングスキームが提案されている。
論文参考訳（メタデータ） (2021-06-04T04:04:10Z)
Funnel-Transformer: Filtering out Sequential Redundancy for Efficient Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。 Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文参考訳（メタデータ） (2020-06-05T05:16:23Z)
Transformer Networks for Trajectory Forecasting [11.802437934289062]
本稿では,トランスフォーマーネットワークを用いた軌道予測手法を提案する。これはLSTMの逐次ステップバイステップ処理からトランスフォーマーの唯一のアテンションベースのメモリ機構への根本的な切り替えである。
論文参考訳（メタデータ） (2020-03-18T09:17:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。