Fugu-MT 論文翻訳(概要): MS-LSTM: Exploring Spatiotemporal Multiscale Representations in Video Prediction Domain

論文の概要: MS-LSTM: Exploring Spatiotemporal Multiscale Representations in Video Prediction Domain

arxiv url: http://arxiv.org/abs/2304.07724v3
Date: Fri, 16 Feb 2024 07:11:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-19 21:07:21.092501
Title: MS-LSTM: Exploring Spatiotemporal Multiscale Representations in Video Prediction Domain
Title（参考訳）: MS-LSTM:ビデオ予測領域における時空間多スケール表現の探索
Authors: Zhifeng Ma, Hao Zhang, Jie Liu
Abstract要約: 既存のRNNモデルは、積み重ねレイヤーのみによって、マルチスケールの機能を得ることができる。本稿では,マルチスケールの観点からMS-LSTMを完全に提案する。理論的にはMS-LSTMとそのコンポーネントのトレーニングコストと性能を理論的に分析する。
参考スコア（独自算出の注目度）: 8.216911980865902
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The drastic variation of motion in spatial and temporal dimensions makes the video prediction task extremely challenging. Existing RNN models obtain higher performance by deepening or widening the model. They obtain the multi-scale features of the video only by stacking layers, which is inefficient and brings unbearable training costs (such as memory, FLOPs, and training time). Different from them, this paper proposes a spatiotemporal multi-scale model called MS-LSTM wholly from a multi-scale perspective. On the basis of stacked layers, MS-LSTM incorporates two additional efficient multi-scale designs to fully capture spatiotemporal context information. Concretely, we employ LSTMs with mirrored pyramid structures to construct spatial multi-scale representations and LSTMs with different convolution kernels to construct temporal multi-scale representations. We theoretically analyze the training cost and performance of MS-LSTM and its components. Detailed comparison experiments with twelve baseline models on four video datasets show that MS-LSTM has better performance but lower training costs.
Abstract（参考訳）: 空間的および時間的次元における動きの劇的な変化は、映像予測タスクを極めて困難にする。既存のRNNモデルは、モデルをより深くまたは拡張することで、より高い性能が得られる。ビデオのマルチスケール機能は、レイヤを積み重ねることによってのみ得られるが、これは非効率であり、(メモリ、FLOP、トレーニング時間など)耐え難いトレーニングコストをもたらす。そこで本研究では,MS-LSTMと呼ばれる時空間的マルチスケールモデルを提案する。積層層に基づくMS-LSTMでは、時空間情報を完全にキャプチャする2つの効率的なマルチスケール設計が組み込まれている。具体的には、ミラー化されたピラミッド構造を持つLSTMを用いて空間的マルチスケール表現を構築し、異なる畳み込みカーネルを持つLSTMを用いて時間的マルチスケール表現を構築する。理論的にMS-LSTMとそのコンポーネントのトレーニングコストと性能を解析する。 4つのビデオデータセット上の12のベースラインモデルによる詳細な比較実験により、MS-LSTMの性能は向上するが、トレーニングコストは低下することが示された。

関連論文リスト

LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文参考訳（メタデータ） (2024-10-21T17:41:28Z)
EMMA: Empowering Multi-modal Mamba with Structural and Hierarchical Alignment [39.870809905905325]
微細な視覚情報を抽出するための構造的・階層的アライメント(EMMA)を用いたマルチモーダルマンバのエンパワーディングを提案する。本モデルでは,他のマンバ系MLLMよりもレイテンシが低く,推論時の変圧器系MLLMよりも約4倍高速であることを示す。
論文参考訳（メタデータ） (2024-10-08T11:41:55Z)
NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文参考訳（メタデータ） (2024-09-17T17:59:06Z)
xLSTM-UNet can be an Effective 2D & 3D Medical Image Segmentation Backbone with Vision-LSTM (ViL) better than its Mamba Counterpart [13.812935743270517]
医用画像セグメンテーションのバックボーンとしてVision-LSTM(xLSTM)を利用するUNet構造化ディープラーニングニューラルネットワークであるxLSTM-UNetを提案する。 xLSTMはLong Short-Term Memory (LSTM) ネットワークの後継として最近提案された。以上の結果から,XLSTM-UNetはCNNベース,Transformerベース,およびMambaベースセグメンテーションネットワークの性能を一貫して上回っていることがわかった。
論文参考訳（メタデータ） (2024-07-01T17:59:54Z)
LTSM-Bundle: A Toolbox and Benchmark on Large Language Models for Time Series Forecasting [69.33802286580786]
LTSM-Bundleは総合的なツールボックスであり、LTSMをトレーニングするためのベンチマークである。複数の次元からLTSMをモジュール化し、ベンチマークし、プロンプト戦略、トークン化アプローチ、ベースモデルの選択、データ量、データセットの多様性を含む。実験により、この組み合わせは最先端のLTSMや従来のTSF法と比較して、ゼロショットと少数ショットのパフォーマンスが優れていることが示された。
論文参考訳（メタデータ） (2024-06-20T07:09:19Z)
ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。 LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文参考訳（メタデータ） (2024-03-30T10:11:26Z)
$λ$-ECLIPSE: Multi-Concept Personalized Text-to-Image Diffusion Models by Leveraging CLIP Latent Space [61.091910046492345]
$lambda$-ECLIPSEは、拡散UNetモデルに頼ることなく、事前訓練されたCLIPモデルの潜在空間で動作する。 $lambda$-ECLIPSEは、たった34Mパラメータでマルチオブジェクト駆動のP-T2Iを実行し、わずか74GPU時間でトレーニングされる。
論文参考訳（メタデータ） (2024-02-07T19:07:10Z)
Algorithm and Hardware Co-Design of Energy-Efficient LSTM Networks for Video Recognition with Hierarchical Tucker Tensor Decomposition [22.502146009817416]
長期記憶(Long Short-term memory、LSTM)は、シーケンス解析やモデリングアプリケーションで広く使われている強力なディープニューラルネットワークである。本稿では,高性能エネルギー効率LSTMネットワークに向けたアルゴリズムとハードウェアの共同設計を提案する。
論文参考訳（メタデータ） (2022-12-05T05:51:56Z)
A journey in ESN and LSTM visualisations on a language task [77.34726150561087]
我々は,CSL(Cross-Situationnal Learning)タスクでESNとLSTMを訓練した。その結果, 性能比較, 内部力学解析, 潜伏空間の可視化の3種類が得られた。
論文参考訳（メタデータ） (2020-12-03T08:32:01Z)
Multi-view Frequency LSTM: An Efficient Frontend for Automatic Speech Recognition [4.753402561130792]
複数のFLSTMスタックの出力を異なるビューで組み合わせることで、シンプルで効率的な修正を行う。本研究では,マルチビューFLSTM音響モデルにより,話者・音響環境の異なるシナリオに対して,単語誤り率(WER)が3～7%向上することを示す。
論文参考訳（メタデータ） (2020-06-30T22:19:53Z)
Sentiment Analysis Using Simplified Long Short-term Memory Recurrent Neural Networks [1.5146765382501612]
GOPディベートTwitterデータセット上で感情分析を行う。学習を高速化し、計算コストと時間を短縮するために、LSTMモデルのスリムバージョンを6つの異なるパラメータで削減する手法を提案する。
論文参考訳（メタデータ） (2020-05-08T12:50:10Z)
Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2020-02-21T05:00:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。