論文の概要: PoM: A Linear-Time Replacement for Attention with the Polynomial Mixer
- arxiv url: http://arxiv.org/abs/2604.06129v1
- Date: Tue, 07 Apr 2026 17:40:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.97078
- Title: PoM: A Linear-Time Replacement for Attention with the Polynomial Mixer
- Title(参考訳): PoM:ポリノミアルミキサーを用いたリニアタイムリプレース
- Authors: David Picard, Nicolas Dufour, Lucas Degeorge, Arijit Ghosh, Davide Allegro, Tom Ravaud, Yohann Perron, Corentin Sautier, Zeynep Sonat Baltaci, Fei Meng, Syrine Kalleli, Marta López-Rauhut, Thibaut Loiseau, Ségolène Albouy, Raphael Baena, Elliot Vincent, Loic Landrieu,
- Abstract要約: ポリノミアルミキサー(PoM)は、線形複雑性を持つ新規なトークン混合機構である。
テキスト生成,手書き文字認識,画像生成,3次元モデリング,地球観測という5つの分野において,自己注意をPoMに置き換える。
- 参考スコア(独自算出の注目度): 22.700575072918767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces the Polynomial Mixer (PoM), a novel token mixing mechanism with linear complexity that serves as a drop-in replacement for self-attention. PoM aggregates input tokens into a compact representation through a learned polynomial function, from which each token retrieves contextual information. We prove that PoM satisfies the contextual mapping property, ensuring that transformers equipped with PoM remain universal sequence-to-sequence approximators. We replace standard self-attention with PoM across five diverse domains: text generation, handwritten text recognition, image generation, 3D modeling, and Earth observation. PoM matches the performance of attention-based models while drastically reducing computational cost when working with long sequences. The code is available at https://github.com/davidpicard/pom.
- Abstract(参考訳): 本稿では, 自己注意の代替として機能する, 線形複雑化を伴う新規なトークン混合機構であるPoMについて紹介する。
PoMは入力トークンを学習された多項式関数を通じてコンパクトな表現に集約し、そこから各トークンがコンテキスト情報を取得する。
我々は,PoMがコンテキストマッピング特性を満たすことを証明し,PoMを組み込んだ変換器が汎用的なシーケンス・ツー・シーケンス近似器のままであることを保証する。
テキスト生成,手書き文字認識,画像生成,3次元モデリング,地球観測という5つの分野において,標準的な自己注意をPoMに置き換える。
PoMはアテンションベースのモデルの性能と一致し、長いシーケンスで作業する際の計算コストを大幅に削減する。
コードはhttps://github.com/davidpicard/pom.comで公開されている。
関連論文リスト
- Polynomial Mixing for Efficient Self-supervised Speech Encoders [50.58463928808225]
Polynomial Mixer (PoM) はマルチヘッド自己注意の代替品である。
PoMは下流音声認識タスクでその性能を達成する。
論文 参考訳(メタデータ) (2026-02-28T14:45:55Z) - Insertion Language Models: Sequence Generation with Arbitrary-Position Insertions [32.48588058887852]
挿入言語モデル(ILM)は、任意の位置にトークンを挿入することを学ぶ。
ILMはトークン間の強い依存関係を表現することができ、任意の順序でシーケンスを生成する能力により、正確にシーケンスをモデル化することができる。
論文 参考訳(メタデータ) (2025-05-09T03:29:15Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - PoM: Efficient Image and Video Generation with the Polynomial Mixer [13.624781500928838]
MHA(Multi-Head Attention)に基づく拡散モデルがユビキタスになり,高品質な画像やビデオが生成されるようになった。
本稿では,ポリノミアルミキサー (PoM) と呼ばれるMHAのドロップイン置換法を提案する。
ポリノミアルミキサーは、通常のMHAと同様に、普遍列列列近似器であることを示す。
論文 参考訳(メタデータ) (2024-11-19T17:16:31Z) - Beyond Image-Text Matching: Verb Understanding in Multimodal
Transformers Using Guided Masking [0.4543820534430524]
この研究はガイドマスキング(英語版)と呼ばれる代替の探索戦略を導入する。
提案手法はマスキングを用いて異なるモダリティを識別し、マスキングされた単語を高精度に予測するモデルの能力を評価する。
ViLBERT,LXMERT,UNITER,VisualBERTの誘導マスキングにより,正しい動詞を高精度に予測できることを示す。
論文 参考訳(メタデータ) (2024-01-29T21:22:23Z) - Incorporating Probing Signals into Multimodal Machine Translation via
Visual Question-Answering Pairs [45.41083125321069]
マルチモーダル機械翻訳(MMT)システムは、テキスト入力が完了すると視覚情報に対する感度が低下する。
ソーステキストからVQAスタイルのペアを並列に生成する手法が提案されている。
MMT-VQAマルチタスク学習フレームワークを導入し、データセットからの明示的な探索信号をMTトレーニングプロセスに組み込む。
論文 参考訳(メタデータ) (2023-10-26T04:13:49Z) - GIFT: Graph-Induced Fine-Tuning for Multi-Party Conversation
Understanding [51.37738394062851]
GIFTは、様々なトランスフォーマーベースの事前訓練言語モデルを適用して、普遍的なMPC理解を実現する。
4種類のエッジは、グラフ誘発信号と注意機構を統合するように設計されている。
論文 参考訳(メタデータ) (2023-05-16T11:35:24Z) - Contextual Transformer Networks for Visual Recognition [103.79062359677452]
視覚認識のための新しいTransformerスタイルのモジュールであるContextual Transformer(CoT)ブロックを設計する。
このような設計は、動的注意行列の学習を導くために入力キー間のコンテキスト情報を完全に活用する。
私たちのCoTブロックは、ResNetアーキテクチャにおける3ドル3ドルの畳み込みを簡単に置き換えられるという視点で魅力的です。
論文 参考訳(メタデータ) (2021-07-26T16:00:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。