論文の概要: Self-Tuning Sparse Attention: Multi-Fidelity Hyperparameter Optimization for Transformer Acceleration
- arxiv url: http://arxiv.org/abs/2603.18417v1
- Date: Thu, 19 Mar 2026 02:24:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.917459
- Title: Self-Tuning Sparse Attention: Multi-Fidelity Hyperparameter Optimization for Transformer Acceleration
- Title(参考訳): 自己調整スパース注意:変圧器加速のための多次元ハイパーパラメータ最適化
- Authors: Arundhathi Dev, Justin Zhan,
- Abstract要約: AFBS-BOは、人間の介入なしに最適な層と頭固有のハイパーパラメータを発見する、完全に自動化されたフレームワークである。
Llama-2-7Bでは、AFBS-BOはハイパーパラメータ発見を3.4倍加速し、グリッドサーチよりも8.8倍少ない評価を行う。
手動で調整されたプリミティブから自己最適化プリミティブに変換することで、AFBS-BOは様々なトランスフォーマーアーキテクチャやドメイン間のプラグアンドプレイアクセラレーションを可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse attention mechanisms promise to break the quadratic bottleneck of long-context transformers, yet production adoption remains limited by a critical usability gap: optimal hyperparameters vary substantially across layers and models, and current methods (e.g., SpargeAttn) rely on manual grid search to identify them. We propose AFBS-BO (Adaptive Fidelity Binary Search with Bayesian Optimization), a fully automated framework that discovers optimal layer- and head-specific hyperparameters without human intervention. Our hybrid algorithm combines Bayesian Optimization for global exploration with binary search for local refinement, leveraging multi-fidelity evaluation across sequence lengths to reduce tuning cost. On Llama-2-7B, AFBS-BO accelerates hyperparameter discovery by 3.4x with 8.8x fewer evaluations than grid search, and identifies high-sparsity configurations that outperform existing sparse attention baselines while closely matching dense attention quality. By transforming sparse attention from a manually tuned heuristic into a self-optimizing primitive, AFBS-BO enables plug-and-play acceleration across diverse transformer architectures and domains.
- Abstract(参考訳): スパース・アテンション・メカニズムは長文トランスフォーマーの二次的ボトルネックを突破することを約束するが、生産導入は依然として重要なユーザビリティ・ギャップによって制限されている。
AFBS-BO(Adaptive Fidelity Binary Search with Bayesian Optimization)を提案する。
我々のハイブリッドアルゴリズムは,グローバル探索のためのベイズ最適化と局所改良のための二分探索を組み合わせ,列長間の多重忠実度評価を活用してチューニングコストを削減する。
Llama-2-7Bでは、AFBS-BOはグリッドサーチよりも8.8倍少ない評価でハイパーパラメータの発見を3.4倍に加速し、既存のスパースアテンションベースラインを上回りながら、密集したアテンション品質と密接な一致を図っている。
手動で調整されたヒューリスティックから自己最適化プリミティブに変換することで、AFBS-BOは様々なトランスフォーマーアーキテクチャやドメインをまたいだプラグアンドプレイアクセラレーションを実現する。
関連論文リスト
- AdaFuse: Accelerating Dynamic Adapter Inference via Token-Level Pre-Gating and Fused Kernel Optimization [84.25316984309725]
動的スパース構造とパラメータ効率のよいアダプタ(例えばLoRA)の統合は、大規模言語モデル(LLM)を拡張するための強力な技術である。
計算負荷は最小限に抑えられるが、計算のレイテンシが急上昇し、復号速度が2.5倍以上遅くなる。
AdaFuseはアルゴリズムと基盤となるハードウェアシステムとの緊密な協調設計に基づいて構築されたフレームワークで、効率的な動的アダプタ実行を実現する。
論文 参考訳(メタデータ) (2026-03-12T12:46:42Z) - AutoQRA: Joint Optimization of Mixed-Precision Quantization and Low-rank Adapters for Efficient LLM Fine-Tuning [23.59600455731982]
混合量子化微調整プロセスにおいて,各レイヤのビット幅とLoRAランク設定を同時に最適化する共同最適化フレームワークを提案する。
実験によると、AutoQRAは、均一な4ビットメソッドに匹敵するメモリフットプリントで、完全精度の微調整に近いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-25T07:18:08Z) - Domain Knowledge Guided Bayesian Optimization For Autonomous Alignment Of Complex Scientific Instruments [0.44654729785785796]
本稿では,探索問題をシンプルにするために,物理的な洞察を活かしたベイズ最適化手法を提案する。
本稿では,12次元6結晶スプリット・アンド・レイ光学系における本手法の有効性を実証する。
実測値を利用して高次元の結合最適化問題をより単純な表現に変換することにより、迅速かつ堅牢な自動チューニングが可能となる。
論文 参考訳(メタデータ) (2026-02-11T09:15:20Z) - Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models [97.55009021098554]
本研究の目的は、SLMのリアルタイムレイテンシの主要な決定要因を特定し、SLMの設計とトレーニングのための一般化可能な原則と方法論を提供することである。
我々はNemotron-Flashと呼ばれるハイブリッドSLMの新たなファミリーを導入し、最先端SLMの精度・効率のフロンティアを大幅に向上させる。
論文 参考訳(メタデータ) (2025-11-24T08:46:36Z) - Relation-Aware Bayesian Optimization of DBMS Configurations Guided by Affinity Scores [2.474203056060563]
データベース管理システム(DBMS)は,大規模および異種データの管理に基本的であり,その性能は構成パラメータの影響を強く受けている。
近年の研究では、機械学習を用いた自動構成最適化に焦点が当てられているが、既存のアプローチにはいくつかの重要な制限がある。
パラメータ依存をグラフとして表現する新しいフレームワークであるRelTuneを提案し,パフォーマンス関連セマンティクスを符号化したGNNベースの潜伏埋め込みを学習する。
論文 参考訳(メタデータ) (2025-10-31T03:46:42Z) - Memory Enhanced Fractional-Order Dung Beetle Optimization for Photovoltaic Parameter Identification [8.924286864388922]
本稿では,3つの協調戦略を統合するメモリ拡張フラクタル次Dung Beetle Optimization (MFO-DBO)アルゴリズムを提案する。
進化したDBOの変種、FOベースのアルゴリズム、拡張された古典的アルゴリズム、そして最近のメタヒューリスティックスを精度、堅牢性、収束速度で一貫して上回っている。
論文 参考訳(メタデータ) (2025-08-09T05:48:30Z) - Continual Adaptation: Environment-Conditional Parameter Generation for Object Detection in Dynamic Scenarios [54.58186816693791]
環境は時間と空間によって常に変化し、クローズドセットの仮定に基づいて訓練された物体検出器にとって重要な課題となる。
そこで本研究では,微調整過程をパラメータ生成に変換する機構を提案する。
特に,2経路LoRAベースのドメイン認識アダプタを最初に設計し,特徴をドメイン不変およびドメイン固有コンポーネントに分解する。
論文 参考訳(メタデータ) (2025-06-30T17:14:12Z) - Sensitivity-Aware Visual Parameter-Efficient Fine-Tuning [91.5113227694443]
私たちは新しいビジュアルを提案します。
Sensuous-Aware Fine-Tuning (SPT) スキーム。
SPTはタスク固有の重要な位置にトレーニング可能なパラメータを割り当てる。
ダウンストリーム認識タスクの幅広い実験により,SPTは既存のPEFT法と相補的であることが示された。
論文 参考訳(メタデータ) (2023-03-15T12:34:24Z) - AUTOMATA: Gradient Based Data Subset Selection for Compute-Efficient
Hyper-parameter Tuning [72.54359545547904]
ハイパーパラメータチューニングのための勾配に基づくサブセット選択フレームワークを提案する。
ハイパーパラメータチューニングに勾配ベースのデータサブセットを用いることで、3$times$-30$times$のターンアラウンド時間とスピードアップが大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-03-15T19:25:01Z) - Pre-trained Gaussian Processes for Bayesian Optimization [24.730678780782647]
本稿では,HyperBO という事前学習型 BO フレームワークを提案する。
GPが既知の「地中真実」を仮定することなく, 後続の予測と, ほぼゼロの後悔をHyperBOに示す。
論文 参考訳(メタデータ) (2021-09-16T20:46:26Z) - Amortized Auto-Tuning: Cost-Efficient Transfer Optimization for
Hyperparameter Recommendation [83.85021205445662]
本稿では,機械学習モデルのチューニングを高速化する自動チューニング(AT2)を提案する。
マルチタスクマルチ忠実ベイズ最適化フレームワークの徹底的な解析を行い、最適なインスタンス化-アモータイズ自動チューニング(AT2)を実現する。
論文 参考訳(メタデータ) (2021-06-17T00:01:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。