論文の概要: LLMForge: Multi-Backend Hardware-Aware Neural Architecture Search with Infinite-Head Attention for Edge Language Models
- arxiv url: http://arxiv.org/abs/2605.17653v1
- Date: Sun, 17 May 2026 21:10:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.300268
- Title: LLMForge: Multi-Backend Hardware-Aware Neural Architecture Search with Infinite-Head Attention for Edge Language Models
- Title(参考訳): LLMForge:エッジ言語モデルに対する無限の注意を伴うマルチバックエンドハードウェア対応ニューラルアーキテクチャ検索
- Authors: Xinting Jiang, Junyi Luo, Ruichen Qi, Kauna Lei, Ben Laurie, Gregory Kielian, Mehdi Saligane,
- Abstract要約: LLMForgeはハードウェア対応のニューラルアーキテクチャ検索フレームワークである。
Infinite-Head Attention (IHA)は、クエリヘッド数、KVグループ、ヘッド毎のクエリ/キーと値次元を分離する。
Forge-Formerはアーキテクチャベースのベンチマークパフォーマンスを上回っている。
- 参考スコア(独自算出の注目度): 0.5765637715313356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sub-billion-parameter Transformer language models are increasingly deployed on edge devices, where the privacy, latency, and operating-cost advantages of on-device inference are constrained by tight memory-bandwidth, energy, and thermal budgets that make architectural choice and accelerator-specific cost central to efficient inference. We present LLMForge, a hardware-aware neural architecture search (NAS) framework whose three composable contributions together make edge-LM architecture search hardware-conditioned, since different substrates impose different hardware cost bottlenecks. Infinite-Head Attention (IHA) decouples the number of query heads, KV groups, and per-head query/key and value dimensions, expanding the feasible per-layer attention configuration space by approximately 400x over grouped-query attention within our search-space ranges. Forge-Former, an encoder-based surrogate for ranking architectural candidates, outperforms MLP and random-forest baselines. Forge-DSE, an NSGA-II-based design-space-exploration engine, pairs Forge-Former with a multi-backend hardware cost model spanning GPUs, systolic accelerators, and ring-dataflow edge accelerators. Across four different hardware substrates, the searches converge to visibly different architectures whose shapes track each substrate's cost bottleneck. On the multi-chip ring substrate, our co-search returns three 300M-scale deployment-aware variants on the Pareto front. Each is re-trained on FineWeb-Edu-10BT under matched recipe against SmolLM2-360M and Qwen-0.5B architecture baselines. The accurate variant has the lowest validation loss 2.798 and competitive benchmark performance with fewer parameters, the energy-optimized variant lowers energy per token by 40%, and the latency-optimized variant lowers TTFT and TPOT by 43%.
- Abstract(参考訳): サブビリオンパラメータ トランスフォーマー言語モデルは、デバイス上の推論のプライバシ、レイテンシ、運用コストのアドバンテージが厳しいメモリ帯域幅、エネルギー、熱予算によって制約され、アーキテクチャの選択とアクセル固有のコストが効率的な推論の中心となるエッジデバイスにますますデプロイされる。
ハードウェア対応ニューラルアーキテクチャサーチ(NAS)フレームワークであるLLMForgeについて述べる。
Infinite-Head Attention (IHA)は、クエリヘッド数、KVグループ数、ヘッドごとのクエリ/キーと値次元を分離し、サーチスペース内のグループ付きクエリーの注意領域を約400倍拡張する。
アーキテクチャ候補をランク付けするためのエンコーダベースのサロゲートであるForge-Formerは、MLPとランダムフォレストベースラインを上回っている。
NSGA-IIベースのデザインスペース探索エンジンであるForge-DSEは、Forge-FormerとGPU、シストリックアクセラレーション、リングデータフローエッジアクセラレーションにまたがるマルチバックエンドハードウェアコストモデルを組み合わせたものだ。
4つの異なるハードウェア基板にまたがって、探索は、各基板のコストボトルネックを追跡する形状の視覚的に異なるアーキテクチャに収束する。
マルチチップリング基板上で、我々の共同研究はパレートフロントに3つの300万スケールの展開対応の変種を返却する。
FineWeb-Edu-10BT では SmolLM2-360M と Qwen-0.5B のアーキテクチャベースラインにマッチしたレシピでトレーニングされている。
正確な変種は、最小の検証損失 2.798 と、より少ないパラメータを持つ競合ベンチマーク性能を持ち、エネルギー最適化された変種はトークン当たりのエネルギーを40%低下させ、レイテンシ最適化された変種はTTFTとTPOTを43%低下させる。
関連論文リスト
- Search Multilayer Perceptron-Based Fusion for Efficient and Accurate Siamese Tracking [3.7727834708902868]
MLP(Multilayer Perception)ベースの融合モジュールは、最小構造オーバーヘッドでピクセルレベルの相互作用を可能にする。
異なるニューラルネットワークサーチ(DNAS)により、チャネル幅最適化と他のアーキテクチャ選択を分離する。
トラッカーは4つの汎用と3つの空中ベンチマークでトップパフォーマーにランクインする。
論文 参考訳(メタデータ) (2026-03-02T10:30:54Z) - MOBIUS: Big-to-Mobile Universal Instance Segmentation via Multi-modal Bottleneck Fusion and Calibrated Decoder Pruning [91.90342432541138]
モデルサイズとトレーニングデータのスケールアップには、インスタンスレベルの知覚のための高度な基盤モデルがある。
資源制約されたプラットフォームにおける高い計算コスト制限。
我々は,高性能コンピューティングプラットフォームとモバイルデバイスの両方において,効率的なセグメンテーションのための新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-10-16T18:00:00Z) - PlatformX: An End-to-End Transferable Platform for Energy-Efficient Neural Architecture Search [10.727973227148114]
エッジデバイスに適した効率的なディープニューラルネットワーク(DNN)を設計するための強力なツールとして、ハードウェア・アウェア・ニューラル・アーキテクチャ(HW-NAS)が登場した。
制約を克服するために,完全に自動化され,転送可能なHW-NASフレームワークであるPlatformXを提案する。
論文 参考訳(メタデータ) (2025-10-10T04:22:14Z) - PEL-NAS: Search Space Partitioned Architecture Prompt Co-Evolutionary LLM-driven Hardware-Aware Neural Architecture Search [3.59587275290785]
ハードウェア対応ニューラルネットワークサーチ(HW-NAS)では,デバイス制約下での精度とレイテンシを共同で最適化する必要がある。
本稿では,PEL-NASを提案する。PEL-NASは探索空間を分割し,アーキテクチャプロンプトを共進化的かつLLM駆動型ニューラルアーキテクチャサーチを提案する。
論文 参考訳(メタデータ) (2025-10-01T21:29:20Z) - Efficient Multi-Instance Generation with Janus-Pro-Dirven Prompt Parsing [53.295515505026096]
Janus-Pro-driven Prompt Parsingは、テキスト理解とレイアウト生成をブリッジするプロンプト解析モジュールである。
MIGLoRAはパラメータ効率の良いプラグインで、低ランク適応を UNet (SD1.5) と DiT (SD3) のバックボーンに統合する。
提案手法はパラメータ効率を維持しつつCOCOおよびLVISベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2025-03-27T00:59:14Z) - Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。
ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文 参考訳(メタデータ) (2024-07-25T16:35:46Z) - Multi-objective Differentiable Neural Architecture Search [58.67218773054753]
我々は,ユーザの好みをトレードオフ性能やハードウェアメトリクスにエンコードするNASアルゴリズムを提案する。
提案手法は,既存のMOO NAS手法を,定性的に異なる検索空間やデータセットの広い範囲で性能良くする。
論文 参考訳(メタデータ) (2024-02-28T10:09:04Z) - LiteTransformerSearch: Training-free On-device Search for Efficient
Autoregressive Language Models [34.673688610935876]
モデルトレーニングを必要とせずに、レイテンシとパープレクシリティが最前線に現れることを示す。
我々は,多種多様なデバイス上での軽量トランスフォーマーサーチ (LTS) の評価を行った。
最大2倍のレイテンシでTransformer-XLのパープレキシティを実現することができることを示す。
論文 参考訳(メタデータ) (2022-03-04T02:10:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。