論文の概要: RubiConv -- Efficient Boundary-Respecting Convolutions
- arxiv url: http://arxiv.org/abs/2605.08451v1
- Date: Fri, 08 May 2026 20:17:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.654775
- Title: RubiConv -- Efficient Boundary-Respecting Convolutions
- Title(参考訳): RubiConv - 効果的な境界参照畳み込み
- Authors: Linda Friso, Annie Marsden, Xinyi Chen, Arushi Gupta, Peter Bartlett, Mark Braverman, Elad Hazan,
- Abstract要約: そこで本研究では,ハードウェア効率の良い境界参照畳み込み処理を行う新しいアルゴリズムを開発した。
RubiConvは、注目と標準FFTベースのベースラインの両方において、大幅なスピードアップを実現している。
- 参考スコア(独自算出の注目度): 16.714478912341708
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Convolutional architectures have emerged as powerful alternatives to Transformers for sequence modeling. The primary advantage is that they offer improved theoretical sequence length complexity by leveraging the Fast Fourier Transform (FFT). However, this theoretical improvement does not always meaningfully land in practice. One critical obstacle is that applying standard FFTs is not amenable to the large-scale training pipeline wherein data is packed from different sources into a single sequence for hardware efficiency. Indeed, standard FFT algorithms are not easily amenable to document packing. Existing workarounds suffer from severe inefficiencies, crippling the practical performance of convolutional architectures. We close this gap with RubiConv, a novel algorithm for performing hardware-efficient, boundary-respecting convolutions on packed sequences. Extensive experiments show that RubiConv achieves significant speedups over both attention and standard FFT-based baselines. This work makes the theoretical efficiency of long convolutional models a practical reality for large-scale, real-world data packing.
- Abstract(参考訳): 畳み込みアーキテクチャは、シーケンスモデリングのためのトランスフォーマーの強力な代替品として登場した。
第一の利点は、Fast Fourier Transform (FFT)を活用することにより、理論的なシーケンス長の複雑さを改善することである。
しかし、この理論的な改善は実際には必ずしも意味のあるものではない。
1つの重要な障害は、標準的なFFTを適用することは、異なるソースからデータを単一のシーケンスにまとめてハードウェア効率を向上する大規模なトレーニングパイプラインには適用できないことである。
実際、標準のFFTアルゴリズムは文書パッキングには容易ではない。
既存の回避策は深刻な非効率に悩まされ、畳み込みアーキテクチャの実践的なパフォーマンスを損なう。
ハードウェア効率の良い境界参照畳み込みを行う新しいアルゴリズムであるRubiConvとこのギャップを埋める。
大規模な実験により、RubiConvは注目と標準FFTベースラインの両方で大幅なスピードアップを達成している。
この研究は、長い畳み込みモデルの理論的効率を、大規模で現実的なデータパッキングの実践現実にしている。
関連論文リスト
- MPDiT: Multi-Patch Global-to-Local Transformer Architecture For Efficient Flow Matching and Diffusion Model [6.401952350014671]
拡散変換器(DiT)は拡散および流れマッチングモデルに広く用いられている。
DiTは同じ数のパッチ付きトークンを各ブロックで処理し、トレーニングプロセス中に比較的重い計算を行う。
マルチパッチトランスフォーマーの設計では、初期ブロックが大きめのパッチで動作し、粗いグローバルコンテキストをキャプチャし、後続ブロックはより小さなパッチを使用して局所的な詳細を精査する。
論文 参考訳(メタデータ) (2026-03-27T12:30:10Z) - Memory-Efficient Training with In-Place FFT Implementation [5.474695910716561]
標準FFTや実FFTを含む既存の実装は、真のインプレース計算を達成できない。
本稿では,入力-出力メモリ空間の整合性を保った最初の実領域フルインプレースFFTフレームワーク(rdFFT)を提案する。
論文 参考訳(メタデータ) (2025-11-03T09:36:11Z) - ParaFormer: Shallow Parallel Transformers with Progressive Approximation [14.82319078008725]
ParaFormerは、構造と計算の両方において真の並列性のために設計された浅層トランスフォーマーアーキテクチャである。
理論的解析により,それらの性能は層間協調による漸進的近似に依存していることが示された。
ParaFormerは最大15.07倍のモデル圧縮をサポートし、適応型継続的学習のためのモデル拡張を容易にする。
論文 参考訳(メタデータ) (2025-10-17T08:28:26Z) - On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification [61.607788999847564]
LLM(Large Language Model)のためのSFT(Supervised Fine-Tuning)の改良法を提案する。
標準SFT勾配は、モデルの一般化能力を著しく制限する問題のある報酬構造を暗黙的に符号化する。
本稿では,このトークンの確率で目的関数を動的に再スケーリングすることにより,各トークンの勾配を安定化する動的微調整(DFT)を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:59:04Z) - UFT: Unifying Supervised and Reinforcement Fine-Tuning [27.786964046329455]
我々は、SFTとRFTを単一の統合プロセスに統合する新しいポストトレーニングパラダイムであるUnified Fine-Tuning(UFT)を提案する。
UFTは、インフォメーション・インフォメーション・シグナルを取り入れつつ、効果的に解を探索することを可能にする。
理論的には、UFTがRFT固有の指数的サンプル複雑性のボトルネックを破ることを示す。
論文 参考訳(メタデータ) (2025-05-22T17:53:57Z) - Sliding Window Attention Training for Efficient Large Language Models [55.56483740523027]
SWATを導入し,スライディングウインドウ・アテンション・トレーニング(Sliding Window Attention Training)を用いて,より効率的な長文処理を実現する。
本稿ではまず,変圧器の非効率性を注目シンク現象とみなす。
我々は、ソフトマックスをシグモイド関数に置き換え、効率的な情報圧縮と保持のためにバランスの取れたALiBiとRotary Position Embeddingを利用する。
論文 参考訳(メタデータ) (2025-02-26T05:31:44Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - DFTpy: An efficient and object-oriented platform for orbital-free DFT
simulations [55.41644538483948]
本稿では、Python 3で完全に書かれたOFDFTを実装したオープンソースソフトウェアであるDFTpyを紹介する。
本稿では,1CPUで計算したアルミニウムの100万原子系の電子構造について紹介する。
DFTpyはMITライセンスでリリースされている。
論文 参考訳(メタデータ) (2020-02-07T19:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。