Fugu-MT 論文翻訳(概要): Apollo-Forecast: Overcoming Aliasing and Inference Speed Challenges in Language Models for Time Series Forecasting

論文の概要: Apollo-Forecast: Overcoming Aliasing and Inference Speed Challenges in Language Models for Time Series Forecasting

arxiv url: http://arxiv.org/abs/2412.12226v1
Date: Mon, 16 Dec 2024 11:01:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-18 17:09:38.413756
Title: Apollo-Forecast: Overcoming Aliasing and Inference Speed Challenges in Language Models for Time Series Forecasting
Title（参考訳）: Apollo-Forecast: 時系列予測のための言語モデルにおけるエイリアス化と推論速度の課題を克服する
Authors: Tianyi Yin, Jingwei Wang, Yunlong Ma, Han Wang, Chenze Wang, Yukai Zhao, Min Liu, Weiming Shen, Yufeng Chen,
Abstract要約: アンチエイリアシング量子化モジュール(AAQM)とレースデコーディング(RD)技術について述べる。 AAQMは、元の信号の高周波ノイズを緩和しながら、シーケンスをトークンに順応的にエンコードする。 RDは並列処理と結果の統合を可能にするためにドラフトモデルを採用しており、長期予測の推論速度を著しく向上させる。
参考スコア（独自算出の注目度）: 16.177920916883565
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Encoding time series into tokens and using language models for processing has been shown to substantially augment the models' ability to generalize to unseen tasks. However, existing language models for time series forecasting encounter several obstacles, including aliasing distortion and prolonged inference times, primarily due to the limitations of quantization processes and the computational demands of large models. This paper introduces Apollo-Forecast, a novel framework that tackles these challenges with two key innovations: the Anti-Aliasing Quantization Module (AAQM) and the Race Decoding (RD) technique. AAQM adeptly encodes sequences into tokens while mitigating high-frequency noise in the original signals, thus enhancing both signal fidelity and overall quantization efficiency. RD employs a draft model to enable parallel processing and results integration, which markedly accelerates the inference speed for long-term predictions, particularly in large-scale models. Extensive experiments on various real-world datasets show that Apollo-Forecast outperforms state-of-the-art methods by 35.41\% and 18.99\% in WQL and MASE metrics, respectively, in zero-shot scenarios. Furthermore, our method achieves a 1.9X-2.7X acceleration in inference speed over baseline methods.
Abstract（参考訳）: 時系列をトークンにエンコードし、処理に言語モデルを使用することで、未知のタスクに一般化するモデルの能力を大幅に増強することが示されている。しかしながら、時系列予測のための既存の言語モデルは、主に量子化プロセスの制限と大規模モデルの計算要求のために、歪みのエイリアス化や長大な推論時間を含むいくつかの障害に遭遇する。本稿では,これらの課題に対処する新しいフレームワークであるApollo-Forecastを紹介する。 AAQMは、元の信号の高周波ノイズを緩和しながら、シーケンスをトークンに適応的にエンコードし、信号の忠実度と全体的な量子化効率を向上する。 RDは、特に大規模モデルにおいて、長期予測の推論速度を著しく加速する並列処理と結果の統合を可能にするために、ドラフトモデルを採用している。さまざまな実世界のデータセットに対する大規模な実験によると、Apollo-Forecastは、ゼロショットシナリオにおいて、それぞれWQLとMASEのメトリクスにおいて、最先端のメソッドを35.41\%と18.99\%でパフォーマンスする。さらに,本手法は,ベースライン法における推論速度の1.9X-2.7X加速を実現する。

関連論文リスト

Accelerating Diffusion Language Model Inference via Efficient KV Caching and Guided Diffusion [16.99620863197586]
拡散言語モデルは並列トークン生成と本質的に双方向性を提供する。最先端拡散モデル(ドリーム7B、LLaDA 8Bなど)は推論が遅い。我々は,トークンアンマキングを監督するために,軽量な事前学習型自己回帰モデルを用いた学習自由度法であるガイドド拡散を導入する。拡散言語モデルが初めて、広く採用されている自己回帰モデルと同等かつ高速なレイテンシを実現する。
論文参考訳（メタデータ） (2025-05-27T17:39:39Z)
DuoDecoding: Hardware-aware Heterogeneous Speculative Decoding with Dynamic Multi-Sequence Drafting [59.57151419673759]
投機的復号化は、出力分布の忠実さを維持しながら生成遅延を低減するドラフト・then-verifyフレームワークを提供する。我々は、CPUとGPUにそれぞれドラフトモデルとターゲットモデルを戦略的にデプロイする新しいアプローチであるDuoDecodingを提案する。本手法は,アイドル時間を最小限に抑えるため,ハードウェア対応の最適ドラフト予算を組み込んで,動的マルチシーケンスドラフトを用いて,ドラフト品質を向上させる。
論文参考訳（メタデータ） (2025-03-02T08:27:48Z)
COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文参考訳（メタデータ） (2024-10-12T23:56:19Z)
LANTERN: Accelerating Visual Autoregressive Models with Relaxed Speculative Decoding [30.630803933771865]
実験により,提案手法が投機的復号化よりも大幅に高速化されたことを示す。 LANTERNは、greedyデコーディングやランダムサンプリングと比較して、$mathbf1.75times$と$mathbf1.76times$のスピードアップを増大させる。
論文参考訳（メタデータ） (2024-10-04T12:21:03Z)
Efficient Autoregressive Audio Modeling via Next-Scale Prediction [52.663934477127405]
我々は、音声トークン化のトークン長を分析し、新しいtextbfScaleレベルのtextbfAudio textbfTokenizer (SAT) を提案する。 SATをベースとした大規模テキストbfAcoustic textbfAutotextbfRegressive(AAR)モデリングフレームワークが提案されている。
論文参考訳（メタデータ） (2024-08-16T21:48:53Z)
Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [59.17158389902231]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文参考訳（メタデータ） (2024-08-10T21:24:25Z)
Chimera: A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens [15.566726645722657]
投機的サンプリングに特化して設計された新しいフレームワークを提案する。このフレームワーク内では、以前に生成されたトークンを効果的に活用し、後続の単語を予測する軽量なドラフトモデルを導入する。我々は、バニラ自動回帰復号方式と比較して平均遅延速度比が2.7倍になるという印象的な結果を示した。
論文参考訳（メタデータ） (2024-02-24T08:10:39Z)
Generation Meets Verification: Accelerating Large Language Model Inference with Smart Parallel Auto-Correct Decoding [11.832919020149891]
本研究の目的は,数十億のパラメータを持つ大規模言語モデル(LLM)の推論速度を高速化することである。 textbfSmart textbfParallel textbfAuto-textbfCorrect dtextbfEcoding (SPACE)を提案する。
論文参考訳（メタデータ） (2024-02-19T03:39:10Z)
TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models [52.454274602380124]
拡散モデルは非常に時間ステップ$t$に大きく依存し、良好なマルチラウンドデノジングを実現している。本稿では,時間情報ブロック上に構築した時間的特徴保守量子化(TFMQ)フレームワークを提案する。先駆的なブロック設計により、時間情報認識再構成(TIAR)と有限集合キャリブレーション(FSC)を考案し、完全な時間的特徴を整列させる。
論文参考訳（メタデータ） (2023-11-27T12:59:52Z)
Revealing the Power of Masked Autoencoders in Traffic Forecasting [16.69508205120188]
本稿では,交通予測における既存の時空間モデルを強化するためのプラグイン・アンド・プレイ・フレームワークを提案する。 STMAEは2つの学習段階から構成されており、事前学習段階では、エンコーダが2つのマスキング戦略によって生成された部分的に可視なトラフィックデータを処理している。 2つのデコーダは,空間的,時間的両面からマスクを復元することを目的としている。トラフィックベンチマークの結果から,STMAEは様々な時空間モデルの予測能力を大幅に向上させることができることがわかった。
論文参考訳（メタデータ） (2023-09-26T18:05:19Z)
Latent Autoregressive Source Separation [5.871054749661012]
本稿では,ベクトル量子化遅延自己回帰音源分離(入力信号を構成源にデミックスする)を導入する。分離法は, 自己回帰モデルが先行するベイズ式に依拠し, 付加トークンの潜在和に対して離散的(非パラメトリック)確率関数を構築した。
論文参考訳（メタデータ） (2023-01-09T17:32:00Z)
Generative Time Series Forecasting with Diffusion, Denoise, and Disentanglement [51.55157852647306]
時系列予測は多くのアプリケーションにおいて非常に重要な課題である。実世界の時系列データが短時間に記録されることが一般的であり、これはディープモデルと限られたノイズのある時系列との間に大きなギャップをもたらす。本稿では,生成モデルを用いた時系列予測問題に対処し,拡散,雑音,ゆがみを備えた双方向変分自動エンコーダを提案する。
論文参考訳（メタデータ） (2023-01-08T12:20:46Z)
Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文参考訳（メタデータ） (2022-07-14T17:00:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。