Fugu-MT 論文翻訳(概要): Transformer^-1: Input-Adaptive Computation for Resource-Constrained Deployment

論文の概要: Transformer^-1: Input-Adaptive Computation for Resource-Constrained Deployment

arxiv url: http://arxiv.org/abs/2501.16394v1
Date: Sun, 26 Jan 2025 15:31:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-29 22:09:10.925936
Title: Transformer^-1: Input-Adaptive Computation for Resource-Constrained Deployment
Title（参考訳）: Transformer^-1:資源制約展開のための入力適応計算
Authors: Lumen AI, Tengzhou No. 1 Middle School, Shihao Ji, Zihui Song, Fucheng Zhong, Jisen Jia, Zhaobo Wu, Zheyi Cao, Xu Tianhao,
Abstract要約: 本稿では,動的シナリオ下でのディープラーニングモデルにおける固定計算パラダイムによる資源無駄に対処するためのTransformer$-1$アーキテクチャを提案する。ベンチマークテストでは,標準的なTransformerと比較してFLOPを42.7%削減し,ピークメモリ使用率を3%削減した。また,いくつかの自然言語処理タスクの実験を行い,資源効率の大幅な向上を実現した。
参考スコア（独自算出の注目度）: 3.6219999155937113
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Addressing the resource waste caused by fixed computation paradigms in deep learning models under dynamic scenarios, this paper proposes a Transformer$^{-1}$ architecture based on the principle of deep adaptivity. This architecture achieves dynamic matching between input features and computational resources by establishing a joint optimization model for complexity and computation. Our core contributions include: (1) designing a two-layer control mechanism, composed of a complexity predictor and a reinforcement learning policy network, enabling end-to-end optimization of computation paths; (2) deriving a lower bound theory for dynamic computation, proving the system's theoretical reach to optimal efficiency; and (3) proposing a layer folding technique and a CUDA Graph pre-compilation scheme, overcoming the engineering bottlenecks of dynamic architectures. In the ImageNet-1K benchmark test, our method reduces FLOPs by 42.7\% and peak memory usage by 34.1\% compared to the standard Transformer, while maintaining comparable accuracy ($\pm$0.3\%). Furthermore, we conducted practical deployment on the Jetson AGX Xavier platform, verifying the effectiveness and practical value of this method in resource-constrained environments. To further validate the generality of the method, we also conducted experiments on several natural language processing tasks and achieved significant improvements in resource efficiency.
Abstract（参考訳）: 本稿では,動的シナリオ下でのディープラーニングモデルにおける固定計算パラダイムによる資源無駄に対処し,深い適応性の原理に基づくTransformer$^{-1}$アーキテクチャを提案する。このアーキテクチャは、複雑化と計算のための共同最適化モデルを確立することにより、入力特徴と計算資源の動的マッチングを実現する。 1)複雑性予測器と強化学習ポリシネットワークで構成された2層制御機構を設計し,計算経路のエンドツーエンドの最適化を可能にすること,(2)動的計算の低境界理論を導出し,システムの理論的リーチを最適に証明すること,(3)動的アーキテクチャの工学的ボトルネックを克服するレイヤ折り畳み技術とCUDAグラフ事前コンパイルスキームを提案すること,などが中心的な貢献である。 ImageNet-1Kベンチマークテストでは、FLOPを42.7 %、ピークメモリを34.1 %削減し、同等の精度($\pm$0.3 %)を維持した。さらに,Jetson AGX Xavierプラットフォーム上での実運用を行い,資源制約環境における本手法の有効性と実用性を検証する。さらに,本手法の汎用性を検証するために,いくつかの自然言語処理タスクの実験を行い,資源効率の大幅な向上を実現した。

関連論文リスト

FORTRESS: Function-composition Optimized Real-Time Resilient Structural Segmentation via Kolmogorov-Arnold Enhanced Spatial Attention Networks [1.663204995903499]
FORTRESS (Function-composition Optimized Real-Time Resilient Structure) は、特別な手法を用いて精度と速度のバランスをとる新しいアーキテクチャである。 Fortressには,系統的に分離可能な畳み込みフレームワーク,適応型TiKAN統合,マルチスケールアテンション融合という,3つの重要なイノベーションが含まれている。このアーキテクチャは 91% のパラメータ還元 (31M から 2.9M) 、91% の計算複雑性低減 (13.7 から 1.17 GFLOPs) 、および 3倍の推論速度向上によって、顕著な効率向上を実現している。
論文参考訳（メタデータ） (2025-07-16T23:17:58Z)
ZeroLM: Data-Free Transformer Architecture Search for Language Models [54.83882149157548]
現在の自動プロキシ発見アプローチは、検索時間の拡張、データの過度なオーバーフィットへの感受性、構造的な複雑さに悩まされている。本稿では,効率的な重み統計によるモデルキャパシティの定量化を目的とした,新しいゼロコストプロキシ手法を提案する。本評価は,FlexiBERT ベンチマークで Spearman's rho 0.76 と Kendall's tau 0.53 を達成し,このアプローチの優位性を示すものである。
論文参考訳（メタデータ） (2025-03-24T13:11:22Z)
Localized Physics-informed Gaussian Processes with Curriculum Training for Topology Optimization [3.6352820455705372]
物理インフォームドガウス過程(GP)に基づく同時かつメッシュフリーなトポロジー最適化(TO)フレームワークを提案する。我々のフレームワークは、カスタマイズされたディープニューラルネットワーク(DNN)を介してパラメータ化される共有のマルチアウトプット平均関数を持つGPプリエントを介して、すべての設計と状態変数を提供する。我々のTOアプローチは、適切に定義された材料インターフェースを生成し、グローバルな最適性を促進するための継続特性を内蔵している。
論文参考訳（メタデータ） (2025-03-18T22:59:16Z)
Adaptive Error-Bounded Hierarchical Matrices for Efficient Neural Network Compression [0.0]
本稿では,物理インフォームドニューラルネットワーク(PINN)に適した動的,エラーバウンドな階層行列 (H-matrix) 圧縮手法を提案する。提案手法は,ニューラル・タンジェント・カーネル(NTK)の本質的性質を保ちながら,大規模物理モデルにおける計算複雑性とメモリ要求を低減させる。実験により, この手法は, 高精度を維持し, 一般化能力を向上させることにより, Singular Value Decomposition (SVD) やプルーニング, 量子化などの従来の圧縮手法よりも優れていることを示した。
論文参考訳（メタデータ） (2024-09-11T05:55:51Z)
Efficiency optimization of large-scale language models based on deep learning in natural language processing tasks [6.596361762662328]
大規模言語モデルの内部構造と操作機構を理論的に解析する。我々は、適応最適化アルゴリズム(AdamWなど)、大規模並列計算技術、混合精度訓練戦略の寄与を評価した。
論文参考訳（メタデータ） (2024-05-20T00:10:00Z)
Mechanistic Design and Scaling of Hybrid Architectures [114.3129802943915]
我々は、様々な計算プリミティブから構築された新しいハイブリッドアーキテクチャを特定し、テストする。本研究では,大規模計算最適法則と新しい状態最適スケーリング法則解析を用いて,結果のアーキテクチャを実験的に検証する。我々は,MAD合成法と計算-最適パープレキシティを相関させ,新しいアーキテクチャの正確な評価を可能にする。
論文参考訳（メタデータ） (2024-03-26T16:33:12Z)
Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。 CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。 CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文参考訳（メタデータ） (2024-01-11T03:08:00Z)
Efficient Inverse Design Optimization through Multi-fidelity Simulations, Machine Learning, and Search Space Reduction Strategies [0.8646443773218541]
本稿では,限られた計算量で制約されたシナリオにおける逆設計最適化プロセスの拡張を目的とした手法を提案する。提案手法はエアフォイル逆設計とスカラーフィールド再構成の2つの異なる工学的逆設計問題について解析する。特に、この方法は、任意の逆設計アプリケーションに適用可能であり、代表的低忠実MLモデルと高忠実度シミュレーションの相乗効果を容易にし、様々な集団ベース最適化アルゴリズムにシームレスに適用することができる。
論文参考訳（メタデータ） (2023-12-06T18:20:46Z)
Federated Conditional Stochastic Optimization [110.513884892319]
条件付き最適化は、不変学習タスク、AUPRC、AMLなど、幅広い機械学習タスクで見られる。本稿では,分散フェデレーション学習のためのアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-04T01:47:37Z)
End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文参考訳（メタデータ） (2023-05-25T10:58:46Z)
Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。 Transformerモデルをより効率的にすることに注力している。
論文参考訳（メタデータ） (2023-02-27T18:18:13Z)
Improvement of Computational Performance of Evolutionary AutoML in a Heterogeneous Environment [0.0]
グラフ構造を持つパイプラインのモデリングにおける進化的最適化の質を高めるためのモジュラー手法を提案する。実装されたアルゴリズムは、オープンソースのフレームワークであるFEDOTの一部として利用可能である。
論文参考訳（メタデータ） (2023-01-12T15:59:04Z)
Transformer-Based Learned Optimization [37.84626515073609]
ニューラルネットワークを用いて計算の更新ステップを表現できる学習最適化手法を提案する。私たちの革新は、古典的なBFGSアルゴリズムにインスパイアされた、新しいニューラルネットワークアーキテクチャです。最適化アルゴリズムの評価に伝統的に用いられてきた目的関数からなるベンチマークにおいて,提案手法の利点を実証する。
論文参考訳（メタデータ） (2022-12-02T09:47:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。