論文の概要: Poolformer: Recurrent Networks with Pooling for Long-Sequence Modeling
- arxiv url: http://arxiv.org/abs/2510.02206v1
- Date: Thu, 02 Oct 2025 16:52:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.228477
- Title: Poolformer: Recurrent Networks with Pooling for Long-Sequence Modeling
- Title(参考訳): Poolformer: 時系列モデリングのためのPooling付きリカレントネットワーク
- Authors: Daniel Gallo Fernández,
- Abstract要約: PoolformerはSequence-to-Sequenceモデルで、自己アテンションをリカレントレイヤに置き換え、シーケンス長を削減するためにプール操作を組み込む。
以上の結果から,プールはトレーニングを大幅に加速し,知覚的指標(FID,IS)が向上し,過度な適合を防ぐことが示唆された。
将来の方向性には、テキストとビジョンのアプリケーションや、マルチモーダルシナリオが含まれる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Sequence-to-sequence models have become central in Artificial Intelligence, particularly following the introduction of the transformer architecture. While initially developed for Natural Language Processing, these models have demonstrated utility across domains, including Computer Vision. Such models require mechanisms to exchange information along the time dimension, typically using recurrent or self-attention layers. However, self-attention scales quadratically with sequence length, limiting its practicality for very long sequences. We introduce Poolformer, a sequence-to-sequence model that replaces self-attention with recurrent layers and incorporates pooling operations to reduce sequence length. Poolformer is defined recursively using SkipBlocks, which contain residual blocks, a down-pooling layer, a nested SkipBlock, an up-pooling layer, and additional residual blocks. We conduct extensive experiments to support our architectural choices. Our results show that pooling greatly accelerates training, improves perceptual metrics (FID and IS), and prevents overfitting. Our experiments also suggest that long-range dependencies are handled by deep layers, while shallow layers take care of short-term features. Evaluated on raw audio, which naturally features long sequence lengths, Poolformer outperforms state-of-the-art models such as SaShiMi and Mamba. Future directions include applications to text and vision, as well as multi-modal scenarios, where a Poolformer-based LLM could effectively process dense representations of images and videos.
- Abstract(参考訳): シークエンス・ツー・シークエンス・モデルは人工知能の中心となり、特にトランスフォーマー・アーキテクチャが導入されてからである。
当初、自然言語処理のために開発されたが、これらのモデルはコンピュータビジョンを含む領域にまたがって実用性を実証してきた。
このようなモデルは時間次元に沿って情報を交換するメカニズムを必要とし、通常は再帰層や自己認識層を用いている。
しかし、自己アテンションは配列長を2次にスケールし、非常に長いシーケンスに対してその実用性を制限する。
本稿では,自己アテンションをリカレントレイヤに置き換えるシーケンス・ツー・シーケンスモデルであるPoolformerを紹介し,シーケンス長を削減するためにプール操作を組み込む。
Poolformerは、残留ブロック、ダウンプール層、ネストされたSkipBlock、アッププール層、追加の残留ブロックを含むSkipBlocksを使って再帰的に定義される。
アーキテクチャの選択を支援するために、広範な実験を行います。
以上の結果から,プールはトレーニングを大幅に加速し,知覚的指標(FID,IS)が向上し,過度な適合を防ぐことが示唆された。
我々の実験は、長距離の依存関係は深い層によって処理され、浅い層は短期的な特徴を処理していることも示唆している。
Poolformerは、自然に長いシーケンス長を持つ生オーディオに基づいて評価され、SaShiMiやMambaといった最先端のモデルよりも優れています。
将来的な方向性としては、テキストやビジョンのアプリケーションや、PoolformerベースのLLMが画像やビデオの密度の高い表現を効果的に処理できるマルチモーダルシナリオなどがある。
関連論文リスト
- ResFormer: All-Time Reservoir Memory for Long Sequence Classification [4.298381633106637]
シーケンス分類は、感情分析、意図検出、トピック分類といったタスクにおける言語パターンの理解と分類に欠かせない。
トランスフォーマーベースのモデルは、最先端のパフォーマンスを達成しているにもかかわらず、2次時間とメモリの複雑さのために固有の制限がある。
提案するResFormerは,カスケード手法を用いて,コンテキスト長を効率的にモデル化するニューラルネットワークアーキテクチャである。
論文 参考訳(メタデータ) (2025-09-28T21:20:49Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z) - Sequence Modeling with Multiresolution Convolutional Memory [27.218134279968062]
我々は、MultiresLayerと呼ばれるシーケンスモデリングのための新しいビルディングブロックを構築します。
我々のモデルの主要な構成要素はマルチレゾリューション・コンボリューションであり、入力シーケンスにおけるマルチスケールトレンドをキャプチャする。
本モデルでは,多数のシーケンス分類と自己回帰密度推定タスクについて,最先端の性能を示す。
論文 参考訳(メタデータ) (2023-05-02T17:50:54Z) - Pooling Revisited: Your Receptive Field is Suboptimal [35.11562214480459]
受信フィールドのサイズと形状は、ネットワークがどのようにローカル情報を集約するかを決定する。
我々はDynOPoolと呼ばれるシンプルだが効果的な動的最適化プール操作を提案する。
実験の結果,学習可能なリサイズモジュールを備えたモデルは,画像分類やセマンティックセグメンテーションにおいて,複数のデータセットのベースラインネットワークよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-05-30T17:03:40Z) - AdaPool: Exponential Adaptive Pooling for Information-Retaining
Downsampling [82.08631594071656]
畳み込み層は畳み込みニューラルネットワーク(CNN)の重要な構成要素である
適応的で指数関数的に重み付けされたアダプール法を提案する。
adaPoolは画像やビデオの分類やオブジェクト検出など,さまざまなタスクを通じて,ディテールの保存性の向上を実証する。
論文 参考訳(メタデータ) (2021-11-01T08:50:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。