Fugu-MT 論文翻訳(概要): PredFormer: Transformers Are Effective Spatial-Temporal Predictive Learners

論文の概要: PredFormer: Transformers Are Effective Spatial-Temporal Predictive Learners

arxiv url: http://arxiv.org/abs/2410.04733v1
Date: Fri, 18 Oct 2024 04:28:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-02 02:17:53.681588
Title: PredFormer: Transformers Are Effective Spatial-Temporal Predictive Learners
Title（参考訳）: PredFormer: トランスフォーマーは効果的な時空間予測学習者である
Authors: Yujin Tang, Lu Qi, Fei Xie, Xiangtai Li, Chao Ma, Ming-Hsuan Yang,
Abstract要約: 本稿では、予測学習のための純粋なトランスフォーマーベースのフレームワークであるPredFormerを提案する。 PredFormerは、リカレントフリーでトランスフォーマーベースの設計で、シンプルかつ効率的である。合成および実世界のデータセットに関する実験は、PredFormerが最先端のパフォーマンスを達成することを示す。
参考スコア（独自算出の注目度）: 65.93130697098658
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Spatiotemporal predictive learning methods generally fall into two categories: recurrent-based approaches, which face challenges in parallelization and performance, and recurrent-free methods, which employ convolutional neural networks (CNNs) as encoder-decoder architectures. These methods benefit from strong inductive biases but often at the expense of scalability and generalization. This paper proposes PredFormer, a pure transformer-based framework for spatiotemporal predictive learning. Motivated by the Vision Transformers (ViT) design, PredFormer leverages carefully designed Gated Transformer blocks, following a comprehensive analysis of 3D attention mechanisms, including full-, factorized-, and interleaved- spatial-temporal attention. With its recurrent-free, transformer-based design, PredFormer is both simple and efficient, significantly outperforming previous methods by large margins. Extensive experiments on synthetic and real-world datasets demonstrate that PredFormer achieves state-of-the-art performance. On Moving MNIST, PredFormer achieves a 51.3% reduction in MSE relative to SimVP. For TaxiBJ, the model decreases MSE by 33.1% and boosts FPS from 533 to 2364. Additionally, on WeatherBench, it reduces MSE by 11.1% while enhancing FPS from 196 to 404. These performance gains in both accuracy and efficiency demonstrate PredFormer's potential for real-world applications. The source code will be released at https://github.com/yyyujintang/PredFormer.
Abstract（参考訳）: 時空間予測学習法は一般的に2つのカテゴリに分類される: 並列化と性能の課題に直面するリカレントベースアプローチと、エンコーダデコーダアーキテクチャとして畳み込みニューラルネットワーク(CNN)を用いるリカレントフリー手法である。これらの手法は強い帰納バイアスの恩恵を受けるが、スケーラビリティと一般化を犠牲にすることが多い。本稿では、時空間予測学習のための純粋なトランスフォーマーベースのフレームワークであるPredFormerを提案する。視覚変換器 (ViT) の設計に動機づけられたPredFormerは、十分に設計されたGated Transformerブロックを活用し、フル、ファクタ化、インターリーブされた空間的注意を含む3Dの注意機構を包括的に分析した。 PredFormerは、リカレントフリーでトランスフォーマーベースの設計なので、シンプルで効率的で、従来の方法よりも大幅にパフォーマンスが良い。合成および実世界のデータセットに関する大規模な実験は、PredFormerが最先端のパフォーマンスを達成することを実証している。移動 MNIST では、PredFormer は SimVP と比較して 51.3% の MSE 削減を実現している。 TaxiBJ の場合、MSE は 33.1% 減少し、FPS は 533 から 2364 に増加した。さらにWeatherBenchでは、MSIを11.1%削減し、FPSを196から404に強化している。これらの性能は精度と効率の両方で向上し、現実世界のアプリケーションにPredFormerの可能性を実証している。ソースコードはhttps://github.com/yyyujintang/PredFormer.comで公開される。

関連論文リスト

Real-time Video Prediction With Fast Video Interpolation Model and Prediction Training [9.225628670664596]
IFRVPと呼ばれるネットワーク上のゼロレイテンシ相互作用に対するリアルタイムビデオ予測を提案する。予測モデルにELANベースの残差ブロックを導入し,予測速度と精度を両立させる。評価の結果,提案モデルが効率よく動作し,予測精度と計算速度の最良のトレードオフが得られることがわかった。
論文参考訳（メタデータ） (2025-03-29T18:48:46Z)
Forecast-PEFT: Parameter-Efficient Fine-Tuning for Pre-trained Motion Forecasting Models [68.23649978697027]
Forecast-PEFTは、モデルのパラメータの大部分を凍結し、新しく導入されたプロンプトとアダプタの調整に集中する微調整戦略である。実験の結果,Forecast-PEFTは動作予測タスクにおいて従来のフルチューニング手法よりも優れていた。 Forecast-FTは予測性能をさらに改善し、従来のベースライン法よりも最大9.6%向上した。
論文参考訳（メタデータ） (2024-07-28T19:18:59Z)
Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文参考訳（メタデータ） (2024-06-24T23:00:58Z)
Efficient Training for Visual Tracking with Deformable Transformer [0.0]
本稿では、エンドツーエンドのビジュアルオブジェクト追跡フレームワークであるDETRackを紹介する。本フレームワークは、変形可能なトランスデコーダがターゲットヘッドとして機能する効率的なエンコーダ・デコーダ構造を用いる。トレーニングには,新しい1対多ラベルの割り当てと補助的認知技術を導入する。
論文参考訳（メタデータ） (2023-09-06T03:07:43Z)
Video Pre-trained Transformer: A Multimodal Mixture of Pre-trained Experts [2.457872341625575]
ビデオ事前学習トランスについて紹介する。 4つのSOTAエンコーダモデルを使用して、動画をコンパクトな埋め込みのシーケンスに変換する。自動回帰因果言語モデリングの損失を利用して学習し、YouTubeビデオで話される単語を予測する。
論文参考訳（メタデータ） (2023-03-24T17:18:40Z)
Video Prediction by Efficient Transformers [14.685237010856953]
本稿では,ビデオ予測のためのトランスフォーマーモデルについて紹介する。実験により、提案したビデオ予測モデルは、より複雑な最先端の畳み込み-LSTMベースのモデルと競合することが示された。
論文参考訳（メタデータ） (2022-12-12T16:46:48Z)
InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions [95.94629864981091]
この研究は、パラメータの増加やViTsのようなトレーニングデータから得られるインターンイメージと呼ばれる、CNNベースの新しい大規模ファンデーションモデルを提案する。提案されたInternImageは、従来のCNNの厳格な帰納バイアスを低減し、ViTのような大規模データから、より強く堅牢なパターンを学習できるようにする。
論文参考訳（メタデータ） (2022-11-10T18:59:04Z)
HARP: Autoregressive Latent Video Prediction with High-Fidelity Image Generator [90.74663948713615]
我々は,高忠実度未来のフレームを予測可能な自己回帰遅延映像予測モデルを訓練する。既存のモデルに最小限の修正を加えて高解像度(256x256)ビデオを作成する。
論文参考訳（メタデータ） (2022-09-15T08:41:57Z)
VMFormer: End-to-End Video Matting with Transformer [48.97730965527976]
ビデオマッティングは、与えられた入力ビデオシーケンスから各フレームのアルファマットを予測することを目的としている。ビデオマッチングの最近のソリューションは、ディープ畳み込みニューラルネットワーク(CNN)によって支配されている。ビデオ・マッティングのためのトランスフォーマー・ベース・エンド・ツー・エンド方式であるVMFormerを提案する。
論文参考訳（メタデータ） (2022-08-26T17:51:02Z)
Back to MLP: A Simple Baseline for Human Motion Prediction [59.18776744541904]
本稿では、歴史的に観察されたシーケンスから将来の身体のポーズを予測することによる、人間の動作予測の課題に取り組む。これらの手法の性能は、0.14Mパラメータしか持たない軽量で純粋にアーキテクチャアーキテクチャによって超えることができることを示す。 Human3.6M, AMASS, 3DPWデータセットの徹底的な評価は, siMLPeをダブした我々の手法が, 他のアプローチよりも一貫して優れていることを示している。
論文参考訳（メタデータ） (2022-07-04T16:35:58Z)
SimVP: Simpler yet Better Video Prediction [38.42917984016527]
本稿では,CNNで完全に構築された単純なビデオ予測モデルであるSimVPを提案する。 5つのベンチマークデータセットで最先端のパフォーマンスを実現する。我々は、SimVPがビデオ予測のさらなる発展を刺激するために、安定したベースラインとして機能できると考えている。
論文参考訳（メタデータ） (2022-06-09T02:03:21Z)
ProFormer: Learning Data-efficient Representations of Body Movement with Prototype-based Feature Augmentation and Visual Transformers [31.908276711898548]
身体からのデータ効率の高い認識法は、画像のような配列として構造化された骨格配列をますます活用している。我々は、このパラダイムをトランスフォーマーネットワークの観点から見て、初めて、骨格運動のデータ効率の高いエンコーダとして視覚トランスフォーマーを探索する。私たちのパイプラインでは、画像のような表現としてキャストされたボディポーズシーケンスをパッチ埋め込みに変換し、深いメトリック学習に最適化されたビジュアルトランスフォーマーバックボーンに渡します。
論文参考訳（メタデータ） (2022-02-23T11:11:54Z)
Emulating Spatio-Temporal Realizations of Three-Dimensional Isotropic Turbulence via Deep Sequence Learning Models [24.025975236316842]
最先端のディープラーニング技術を用いて3次元乱流をモデル化するために,データ駆動方式を用いる。モデルの精度は、統計および物理に基づくメトリクスを用いて評価される。
論文参考訳（メタデータ） (2021-12-07T03:33:39Z)
Scale Efficiently: Insights from Pre-training and Fine-tuning Transformers [57.931830650323]
本稿では,事前学習および微調整型変圧器によるスケーリングの洞察について述べる。モデルのサイズだけでなく、モデル形状が下流の微調整に重要であることを示す。再設計したモデルにより、下流の微調整品質が向上する。
論文参考訳（メタデータ） (2021-09-22T12:29:15Z)
TCCT: Tightly-Coupled Convolutional Transformer on Time Series Forecasting [6.393659160890665]
本稿では, 密結合型畳み込み変換器(TCCT)と3つのTCCTアーキテクチャを提案する。実世界のデータセットに対する我々の実験は、我々のTCCTアーキテクチャが既存の最先端トランスフォーマーモデルの性能を大幅に改善できることを示している。
論文参考訳（メタデータ） (2021-08-29T08:49:31Z)
FitVid: Overfitting in Pixel-Level Video Prediction [117.59339756506142]
われわれはFitVidという新しいアーキテクチャを導入し、一般的なベンチマークに厳しいオーバーフィッティングを行えるようにした。 FitVidは、4つの異なるメトリクスで4つの異なるビデオ予測ベンチマークで現在の最先端モデルを上回っている。
論文参考訳（メタデータ） (2021-06-24T17:20:21Z)
Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。線形複雑リカレント変種は自己回帰生成に適していることが証明されている。この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文参考訳（メタデータ） (2021-03-24T10:50:43Z)
Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions [103.03973037619532]
この研究は、畳み込みのない多くの密な予測タスクに有用な単純なバックボーンネットワークを調査します。画像分類用に特別に設計された最近提案されたトランスフォーマーモデル(例: ViT)とは異なり、Pyramid Vision Transformer(PVT)を提案する。 PVTは、高出力の解像度を達成するために画像の高密度分割をトレーニングするだけでなく、高密度の予測に重要である。
論文参考訳（メタデータ） (2021-02-24T08:33:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。