論文の概要: Budgeted Attention Allocation: Cost-Conditioned Compute Control for Efficient Transformers
- arxiv url: http://arxiv.org/abs/2605.05697v1
- Date: Thu, 07 May 2026 05:37:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.536271
- Title: Budgeted Attention Allocation: Cost-Conditioned Compute Control for Efficient Transformers
- Title(参考訳): Budgeted Attention Allocation:高効率変圧器のコスト制約計算制御
- Authors: Amrit Nidhi,
- Abstract要約: 予算付注意割当(Budgeted Attention Allocation)は、要求された注意予算に基づいて調整されたモノトーンヘッドゲイティング機構である。
ハードゲート適応はソフトコスト制御を計測シングルスレッドCPU速度に変換する。
BERT-Miniの予算ゲートは97.4%に達し、予算は0.50と96.6%に達している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers usually expose one inference cost per trained model, while deployed systems often need multiple cost-quality operating points. We study Budgeted Attention Allocation, a monotone head-gating mechanism conditioned on a requested attention budget. Dense warm-starting is important for stability: on a robust synthetic sequence task, one budgeted model reaches 99.7% accuracy at 0.303 estimated attention cost and 100.0% accuracy at 0.504 cost. On held-out AG News with a custom word-level transformer, hard-gate adaptation turns soft cost control into measured single-thread CPU speed, reaching 82.1% accuracy with 1.28x speedup at budget 0.50. In pretrained BERT-Mini AG News, budgeted structural pruning reaches 87.6% accuracy with 1.20x speedup at budget 0.50; a validation-ranked zero-shot dense post-hoc structural baseline reaches 86.1%, and one recovery epoch raises that per-budget specialist to 87.9%. On DBpedia14, BERT-Mini budgeted gates reach 97.4% at exact budget 0.50 versus 96.6% for dense full attention. Static fixed-budget gates and recovered dense specialists remain strong. The contribution is therefore not universal dominance, but a reproducible feasibility study of one controllable checkpoint across budgets that can trade attention cost for accuracy and be converted into measured structural speedups on small CPU benchmarks.
- Abstract(参考訳): トランスフォーマーは通常、トレーニングされたモデルごとに1つの推論コストを公開します。
我々は,要求された注意予算を条件としたモノトンヘッドゲイティング機構であるBudgeted Attention Allocationについて検討した。
厳密な合成シーケンスタスクでは、1つの予算モデルが99.7%の精度で0.303の注意コスト、0.504の精度で100.0%に達する。
カスタムワードレベルのトランスフォーマーを備えたAG Newsでは、ハードゲート適応がソフトコスト制御をシングルスレッドのCPU速度に変換し、82.1%の精度で予算0.50で1.28倍のスピードアップを達成した。
事前訓練されたBERT-Mini AG Newsでは、予算化された構造刈りの精度が87.6%、予算0.50で1.20倍に向上し、検証されたゼロショットの高密度なポストホック構造ベースラインが86.1%に達した。
DBpedia14では、BERT-Miniの予算ゲートが97.4%に達し、予算は0.50と96.6%に達した。
静的な固定予算ゲートと回収された密集した専門家は依然として強いままである。
したがって、コントリビューションは普遍的な優位性ではなく、予算をまたいだ1つの制御可能なチェックポイントの再現可能な実現可能性スタディであり、これは、注意を注意するコストと引き換えに、小さなCPUベンチマークで測定された構造的スピードアップに変換することができる。
関連論文リスト
- Machine Learning and Deep Learning Models for Short Term Electricity Price Forecasting in Australia's National Electricity Market [3.299203499767714]
競争力のある電力市場では短期的な電力価格予測が不可欠である。
しかし、電気価格シリーズは高いボラティリティ、不規則性、非定常性を示す。
本研究は,これらの課題に対処する統一ベンチマークフレームワークを開発する。
論文 参考訳(メタデータ) (2026-04-26T22:57:39Z) - LineMaster Pro: A Low-Cost Intelligent Line Following Robot with PID Control and Ultrasonic Obstacle Avoidance for Educational Robotics [2.2903728931592395]
LineMaster ProはArduino Nanoプラットフォーム上で実装された、インテリジェントで低コストなラインフォローロボットである。
PIDの実装は従来のオンオフ制御よりも43%改善されている。
LineMaster Proは商用版に比べて94%のコスト削減を実現している。
論文 参考訳(メタデータ) (2026-03-14T11:42:48Z) - Conformal Thinking: Risk Control for Reasoning on a Compute Budget [60.65072883773352]
大規模言語モデル(LLM)の推論により、トークンの予算が増加するにつれて、データセットレベルの精度が向上する。
我々は、予算設定問題をリスクコントロールとして再設定し、計算を最小化しながらエラー率を制限する。
我々のフレームワークは、モデルが自信のあるときに推論を停止する上位しきい値と、未解決のインスタンスを事前に停止させる新しい下位しきい値を導入する。
論文 参考訳(メタデータ) (2026-02-03T18:17:22Z) - Predictive Scheduling for Efficient Inference-Time Reasoning in Large Language Models [6.002670452103349]
大規模言語モデル(LLM)は複雑な推論タスクにおいて最先端の精度を達成する。
しかし、クエリ毎に固定されたトークン予算を使用することで、簡単な入力の過剰計算とハードな入力の過小計算につながる。
プラグイン・アンド・プレイのフレームワークであるPredictive Schedulingを導入する。このフレームワークは軽量な予測器を事前実行し、各クエリの最適な推論の長さや難易度を全世代前に推定する。
論文 参考訳(メタデータ) (2026-02-01T13:58:23Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - LLM-as-a-Judge for Scalable Test Coverage Evaluation: Accuracy, Operational Reliability, and Cost [1.7133809948345597]
構造化評価を用いた受入テスト評価のための実運用対応フレームワークを提案する。
正確性、運用上の信頼性、コストにまたがる最初の包括的分析を提供する。
私たちは、データセット、フレームワーク、そしてデプロイをサポートするためのコードをリリースします。
論文 参考訳(メタデータ) (2025-12-01T03:19:33Z) - Few-Shot, Robust Calibration of Single Qubit Gates Using Bayesian Robust Phase Estimation [1.908202668475435]
量子ゲートにおける制御パラメータの正確な校正のためのロバスト位相推定(BRPE)を導入する。
BRPE は位相推定誤差を著しく低減し、標準 RPE よりも50ドルほど少ないサンプルを必要とする。
偏極ノイズモデルでは、176ドルの固定コストで最大47%の値下げを実現している。
論文 参考訳(メタデータ) (2024-07-25T18:52:16Z) - Experimental Bayesian calibration of trapped ion entangling operations [48.43720700248091]
我々は,広く使用されているMolmer-Sorensenエンタングゲート操作の実験パラメータを自動的に推定し,調整する効率的なキャリブレーションプロトコルを開発し,特徴付ける。
実験では, ゲートキャリブレーションを1分以内で完了する間, 実験サイクルは1200pm500$で, ゲートキャリブレーションの中央値が1.3(1)cdot10-3$であることを示す。
論文 参考訳(メタデータ) (2021-12-02T16:59:00Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z) - Robust fine-tuning of zero-shot models [79.38373024475646]
既存の微調整アプローチは、分布の精度を大幅に向上するが、分布外ロバスト性は低下する。
我々は、ゼロショットモデルと微調整モデルの重みをアンサンブルする、ロバスト性を改善するための単純で効果的な方法を提案する。
通常の微調整と比較して、結果として生じる重量空間のアンサンブルは、分配精度と一致または分配精度を大きく改善する。
論文 参考訳(メタデータ) (2021-09-04T17:11:28Z) - Soft Threshold Weight Reparameterization for Learnable Sparsity [46.419079691593396]
本稿では,ソフトスレッショルド演算子の推論重みに対する新しい利用法STRを提案する。
STRはプルーニング閾値を学習しながらスペーサを円滑に誘導し、不均一なスペーサ性予算を得る。
提案手法は,CNNの非構造的間隔に対する最先端の精度(ImageNet-1K上のResNet50とMobileNetV1)を実現し,FLOPを最大50%削減する一様でない予算を学習する。
論文 参考訳(メタデータ) (2020-02-08T21:31:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。