論文の概要: iFlame: Interleaving Full and Linear Attention for Efficient Mesh Generation
- arxiv url: http://arxiv.org/abs/2503.16653v1
- Date: Thu, 20 Mar 2025 19:10:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:57:04.239391
- Title: iFlame: Interleaving Full and Linear Attention for Efficient Mesh Generation
- Title(参考訳): iFlame: 効率的なメッシュ生成のための完全なインターリービングと線形アテンション
- Authors: Hanxiao Wang, Biao Zhang, Weize Quan, Dong-Ming Yan, Peter Wonka,
- Abstract要約: iFlameはメッシュ生成のためのトランスフォーマーベースの新しいネットワークアーキテクチャである。
本稿では,線形アテンションの効率とフルアテンション機構の表現力を組み合わせたインターリービング自己回帰メッシュ生成フレームワークを提案する。
提案するインターリービングフレームワークは,計算効率と生成性能を効果的にバランスさせることが示唆された。
- 参考スコア(独自算出の注目度): 49.8026360054331
- License:
- Abstract: This paper propose iFlame, a novel transformer-based network architecture for mesh generation. While attention-based models have demonstrated remarkable performance in mesh generation, their quadratic computational complexity limits scalability, particularly for high-resolution 3D data. Conversely, linear attention mechanisms offer lower computational costs but often struggle to capture long-range dependencies, resulting in suboptimal outcomes. To address this trade-off, we propose an interleaving autoregressive mesh generation framework that combines the efficiency of linear attention with the expressive power of full attention mechanisms. To further enhance efficiency and leverage the inherent structure of mesh representations, we integrate this interleaving approach into an hourglass architecture, which significantly boosts efficiency. Our approach reduces training time while achieving performance comparable to pure attention-based models. To improve inference efficiency, we implemented a caching algorithm that almost doubles the speed and reduces the KV cache size by seven-eighths compared to the original Transformer. We evaluate our framework on ShapeNet and Objaverse, demonstrating its ability to generate high-quality 3D meshes efficiently. Our results indicate that the proposed interleaving framework effectively balances computational efficiency and generative performance, making it a practical solution for mesh generation. The training takes only 2 days with 4 GPUs on 39k data with a maximum of 4k faces on Objaverse.
- Abstract(参考訳): 本稿では,メッシュ生成のためのトランスフォーマーベースのネットワークアーキテクチャであるiFlameを提案する。
注意に基づくモデルはメッシュ生成において顕著な性能を示してきたが、その2次計算複雑性はスケーラビリティを制限している。
逆に、線形注意機構は計算コストを低くするが、しばしば長距離依存を捉えるのに苦労し、最適以下の結果をもたらす。
このトレードオフに対処するため,線形アテンションの効率とフルアテンション機構の表現力を組み合わせたインターリーブ自己回帰メッシュ生成フレームワークを提案する。
さらに効率を高め,メッシュ表現の固有構造を活用するために,このインターリービングアプローチを時間ガラスアーキテクチャに統合し,効率を大幅に向上させる。
われわれのアプローチは、純粋な注意に基づくモデルに匹敵する性能を保ちながら、トレーニング時間を短縮する。
推論効率を向上させるために,KVキャッシュの速度をほぼ2倍にし,元のTransformerと比較してKVキャッシュサイズを78%削減するキャッシングアルゴリズムを実装した。
我々はShapeNetとObjaverseのフレームワークを評価し、高品質な3Dメッシュを効率的に生成できることを実証した。
提案手法は, 計算効率と生成性能を効果的にバランスさせ, メッシュ生成の実用的な解法であることを示す。
トレーニングはわずか2日間で、4つのGPUを39kのデータに配置し、最大4kの顔がObjaverseに表示される。
関連論文リスト
- Accelerating Linear Recurrent Neural Networks for the Edge with Unstructured Sparsity [39.483346492111515]
線形リカレントニューラルネットワークは、推論中に一定のメモリ使用量と時間毎の時間を含む強力な長距離シーケンスモデリングを可能にする。
非構造化空間は、互換性のあるハードウェアプラットフォームによって加速されるときに、計算とメモリの要求を大幅に削減できる魅力的なソリューションを提供する。
非常に疎い線形RNNは、高密度ベースラインよりも高い効率と性能のトレードオフを一貫して達成している。
論文 参考訳(メタデータ) (2025-02-03T13:09:21Z) - Numerical Pruning for Efficient Autoregressive Models [87.56342118369123]
本稿では,デコーダのみを用いた変圧器を用いた自己回帰モデルの圧縮に着目する。
具体的には,ニュートン法とモジュールの数値スコアをそれぞれ計算する学習自由プルーニング法を提案する。
提案手法の有効性を検証するため,理論的支援と広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-12-17T01:09:23Z) - Efficient Federated Learning Using Dynamic Update and Adaptive Pruning with Momentum on Shared Server Data [59.6985168241067]
フェデレートラーニング(FL)は、低トレーニング効率と限られた計算資源の2つの重要な問題に遭遇する。
本稿では,サーバ上の共有不感データとエッジデバイスの分散データを活用するための新しいFLフレームワークであるFedDUMAPを提案する。
提案するFLモデルであるFedDUMAPは,従来の3つの手法を組み合わせることで,ベースラインアプローチと比較して性能が大幅に向上した。
論文 参考訳(メタデータ) (2024-08-11T02:59:11Z) - Faster Image2Video Generation: A Closer Look at CLIP Image Embedding's Impact on Spatio-Temporal Cross-Attentions [27.111140222002653]
本稿では,Stable Video Diffusion (SVD) フレームワークにおけるCLIP画像埋め込みの役割について検討する。
本稿では,SVDアーキテクチャの効率性に最適化されたトレーニング不要のアプローチであるVCUTを紹介する。
VCUTの実装により、ビデオ毎のMAC(Multiple-Accumulate Operations)を最大322T削減し、モデルパラメータを最大50M削減し、ベースラインと比較して20%のレイテンシ削減を実現した。
論文 参考訳(メタデータ) (2024-07-27T08:21:14Z) - ReduceFormer: Attention with Tensor Reduction by Summation [4.985969607297595]
注意を払って効率よく最適化されたモデルのファミリーであるReduceeFormerを紹介します。
ReduceFormerは、reduceやement-wise multiplicationといった単純な操作のみを活用するため、アーキテクチャが大幅に単純化され、推論性能が向上した。
提案するモデルファミリは,計算資源とメモリ帯域幅が限られているエッジデバイスや,高いスループットを求めるクラウドコンピューティングに適している。
論文 参考訳(メタデータ) (2024-06-11T17:28:09Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - Point Transformer V3: Simpler, Faster, Stronger [88.80496333515325]
本稿では,ポイントクラウド処理における精度と効率のトレードオフを克服することに焦点を当てる。
本稿では,特定のメカニズムの精度よりもシンプルさと効率を優先するポイントトランスフォーマーV3(PTv3)を提案する。
PTv3は、屋内と屋外の両方のシナリオにまたがる20以上の下流タスクで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-15T18:59:59Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - Model-Architecture Co-Design for High Performance Temporal GNN Inference
on FPGA [5.575293536755127]
実世界のアプリケーションは、リアルタイムストリーミング動的グラフに対して高いパフォーマンスの推論を必要とする。
本稿では,FPGA上でのメモリベースTGNNの推論のための新しいモデルアーキテクチャ共設計を提案する。
我々は、知識蒸留を用いて単純化されたモデルを訓練し、元のモデルと同じような精度でビザビザビザビザを保証します。
論文 参考訳(メタデータ) (2022-03-10T00:24:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。