論文の概要: Spatiotemporal Tile-based Attention-guided LSTMs for Traffic Video Prediction
- arxiv url: http://arxiv.org/abs/1910.11030v4
- Date: Wed, 08 Oct 2025 07:42:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 15:34:28.248382
- Title: Spatiotemporal Tile-based Attention-guided LSTMs for Traffic Video Prediction
- Title(参考訳): 交通映像予測のための時空間タイルベースアテンション誘導LSTM
- Authors: Tu Nguyen,
- Abstract要約: この要約では、Traffic4Cast Challenge 2019のソリューションについて説明します。
このタスクは、きめ細かい(ピクセルレベルの)空間構造と粗い(領域レベルの)空間構造の両方をモデル化する必要がある。
タイル認識型,カスケードメモリのConv-LSTMを,クロスフレーム付加的注意とメモリフレキシブルなトレーニングスキームで拡張した。
- 参考スコア(独自算出の注目度): 0.31727619150610836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This extended abstract describes our solution for the Traffic4Cast Challenge 2019. The task requires modeling both fine-grained (pixel-level) and coarse (region-level) spatial structure while preserving temporal relationships across long sequences. Building on Conv-LSTM ideas, we introduce a tile-aware, cascaded-memory Conv-LSTM augmented with cross-frame additive attention and a memory-flexible training scheme: frames are sampled per spatial tile so the model learns tile-local dynamics and per-tile memory cells can be updated sparsely, paged, or compressed to scale to large maps. We provide a compact theoretical analysis (tight softmax/attention Lipschitz bound and a tiling error lower bound) explaining stability and the memory-accuracy tradeoffs, and empirically demonstrate improved scalability and competitive forecasting performance on large-scale traffic heatmaps.
- Abstract(参考訳): この拡張抽象化では、Traffic4Cast Challenge 2019のソリューションについて説明します。
このタスクは、細粒度(ピクセルレベル)と粗い(領域レベル)の空間構造の両方をモデル化し、長いシーケンスにわたって時間的関係を保存する必要がある。
Conv-LSTMのアイデアに基づいて,クロスフレームの付加的注意とメモリフレキシブルなトレーニングスキームを付加したタイル認識型,ケースドメモリのConv-LSTMを導入する。
本稿では,安定性とメモリ精度のトレードオフを解説したコンパクトな理論的解析(ソフトマックス/アテンションリプシッツ境界とタイリングエラー下限)を行い,大規模交通熱マップ上でのスケーラビリティと競合予測性能を実証的に実証した。
関連論文リスト
- Minimal Convolutional RNNs Accelerate Spatiotemporal Learning [4.918567856499736]
畳み込みリカレントネットワークの空間バイアスと最小並列RNNのトレーニング効率を組み合わせた2つの時間モデルであるMinConvLSTMとMinConvGRUを紹介する。
我々のモデルは、構造的に最小限の計算と計算効率であり、パラメータ数を削減し、スケーラビリティを改善している。
論文 参考訳(メタデータ) (2025-08-05T16:28:43Z) - Enhancing Spatiotemporal Networks with xLSTM: A Scalar LSTM Approach for Cellular Traffic Forecasting [0.7111641404908191]
本稿では,空間的特徴抽出のための3層Conv3Dモジュールと,より効率的なモデリングのためのグラデラーLSTMを利用する軽量なデュアルパス時空間ネットワークを提案する。
ConvLSTMベースラインよりも優れた予測性能を示し、未確認領域への強力な一般化を実現し、大規模次世代ネットワーク展開に適していることを示す。
論文 参考訳(メタデータ) (2025-07-17T22:48:46Z) - Long-Context State-Space Video World Models [66.28743632951218]
本稿では、状態空間モデル(SSM)を活用して、計算効率を損なうことなく時間記憶を拡張する新しいアーキテクチャを提案する。
我々の設計の中心はブロックワイズSSMスキャン方式であり、時間記憶の拡張のために空間整合性を戦略的にトレードオフする。
メモリ迷路とMinecraftのデータセットの実験は、我々のアプローチが長距離メモリ保存のベースラインを超えたことを示している。
論文 参考訳(メタデータ) (2025-05-26T16:12:41Z) - LatentLLM: Attention-Aware Joint Tensor Compression [50.33925662486034]
大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)は膨大な計算量とメモリ資源を必要とする。
本稿では,LLM/LMMを低次元潜在構造に変換するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-23T22:39:54Z) - Time-Frequency-Based Attention Cache Memory Model for Real-Time Speech Separation [20.168153319805665]
Time-Frequency Attention Cache Memory (TFACM)モデルは、アテンションメカニズムとキャッシュメモリを通じて関係をキャプチャする。
実験の結果,TFACMはSOTA-GridNet-Causalモデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2025-05-19T13:25:51Z) - MVAR: Visual Autoregressive Modeling with Scale and Spatial Markovian Conditioning [18.419771643052297]
本稿では,条件付き確率モデリングの複雑さを低減するために,マルコフ型視覚自己回帰モデリングフレームワークを提案する。
具体的には,次のスケール予測のために,隣接するスケールの特徴を入力としてのみ扱うスケールマルコフ軌道を導入する。
また,各トークンの注意を,隣接するスケールで対応する位置にある大きさ k の局所的近傍に限定する空間マルコフアテンションを提案する。
論文 参考訳(メタデータ) (2025-05-19T05:56:44Z) - Exploiting Temporal State Space Sharing for Video Semantic Segmentation [53.8810901249897]
ビデオセマンティックセグメンテーション(VSS)はシーンの時間的進化を理解する上で重要な役割を担っている。
従来の手法では、ビデオはフレーム単位で、あるいは短い時間ウィンドウで分割されることが多く、時間的コンテキストや冗長な計算、重いメモリ要求に繋がる。
本研究では,時間的特徴共有にマンバ状態空間モデルを活用するための時間的ビデオ状態空間共有アーキテクチャを提案する。
本モデルでは,映像フレーム間の関連情報を効率的に伝播する選択的ゲーティング機構を特徴とし,メモリ量の多い機能プールの必要性を解消する。
論文 参考訳(メタデータ) (2025-03-26T01:47:42Z) - Online Dense Point Tracking with Streaming Memory [54.22820729477756]
デンスポイントトラッキングは、ビデオのかなりの部分を通して、初期フレーム内のすべてのポイントの連続的な追跡を必要とする、困難なタスクである。
最近の点追跡アルゴリズムは、通常、最初のフレームから現在のフレームへの間接的な情報伝達のためにスライドウィンドウに依存する。
我々は、高密度のtextbfPOint textbfTracking とオンラインビデオ処理のための textbfStreaming メモリを備えた軽量で高速なモデルを提案する。
論文 参考訳(メタデータ) (2025-03-09T06:16:49Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。