論文の概要: Joint Architecture-Token-Bitwidth Multi-Axis Optimization of Vision Transformers for Semiconductor IC Packaging
- arxiv url: http://arxiv.org/abs/2605.01742v1
- Date: Sun, 03 May 2026 06:45:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.918236
- Title: Joint Architecture-Token-Bitwidth Multi-Axis Optimization of Vision Transformers for Semiconductor IC Packaging
- Title(参考訳): 半導体ICパッケージング用視覚変換器の連立構造とビット幅の多重軸最適化
- Authors: Phat Nguyen, Xue Geng, Kaixin Xu, Wang Zhe, Xulei Yang, Ngai-Man Cheung,
- Abstract要約: 視覚変換器(ViT)は、視覚認識において高い性能を達成しているが、資源に制約のある産業環境への展開は依然として限られている。
アーキテクチャ,トークン,ビット幅の3つの相補的軸を共同で最適化する,最初の包括的フレームワークの1つを提示する。
具体的には、Neural Architecture Search(AutoFormer)を介してコンパクトなバックボーンを特定し、トークンマージ(ToMe)による情報処理を削減し、fp16混合精度推論による操作間実行を高速化する。
- 参考スコア(独自算出の注目度): 32.78037242946664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers (ViTs) have achieved strong performance in visual recognition, yet their deployment in resource-constrained industrial environments remains limited. Some main challenges are their high computational cost, memory requirement, and energy consumption. While individual efficiency techniques such as neural architecture search (NAS), token compression, and low-precision inference have been extensively studied, most prior work targets only a single optimization axis, limiting overall deployment gains while preserving accuracy. In this paper, we present one of the first holistic frameworks that jointly optimizes three complementary axes: architecture, token, and bit-width. Specifically, the framework identifies compact backbones via Neural Architecture Search (AutoFormer), reduces information processing via token merging (ToMe), and accelerates per-operation execution via fp16 mixed-precision inference. Starting from a DeiT-B/16 baseline, we first analyze accuracy-efficiency trade-offs on ImageNet-1K under aggressive compression. Then, we apply the selected configurations to a real-world in-house 3D X-ray semiconductor defect classification dataset for IC chip packaging inspection. Results show that the proposed multi-axis framework achieves more than 10 times improvement in throughput along with over 10 times reductions in parameter count, FLOPs, and energy consumption, while maintaining the required accuracy on the downstream industrial task. To the best of our knowledge, this is among the earliest works to jointly optimize architecture, token, and bit-width dimensions in ViTs and the first such resource-efficient, deployment-focused study tailored to semiconductor manufacturing.
- Abstract(参考訳): ヴィジュアルトランスフォーマー(ViT)は、視覚認識において高い性能を達成しているが、資源に制約のある産業環境への展開は依然として限られている。
主な課題は、高い計算コスト、メモリ要求、エネルギー消費である。
ニューラルアーキテクチャサーチ(NAS)やトークン圧縮、低精度推論といった個々の効率技術が広く研究されているが、従来の作業対象は単一の最適化軸のみであり、精度を保ちながら全体のデプロイメントゲインを制限する。
本稿では,アーキテクチャ,トークン,ビット幅の3つの相補的軸を共同で最適化する,最初の包括的フレームワークについて述べる。
具体的には、Neural Architecture Search(AutoFormer)を介してコンパクトなバックボーンを特定し、トークンマージ(ToMe)による情報処理を削減し、fp16混合精度推論による操作間実行を高速化する。
DeiT-B/16ベースラインから始め,画像Net-1Kの精度・効率トレードオフをアグレッシブ圧縮で解析する。
次に,ICチップパッケージング検査のための実世界の3次元X線半導体欠陥分類データセットに適用する。
その結果, 提案手法は, 下流産業課題における要求精度を維持しつつ, パラメータ数, FLOP, エネルギー消費の10倍以上の削減とともに, スループットを10倍以上に向上させることがわかった。
我々の知る限りでは、これはViTのアーキテクチャ、トークン、ビット幅を共同で最適化する最も初期の研究であり、半導体製造に適したリソース効率、デプロイにフォーカスした最初の研究である。
関連論文リスト
- Comprehensive Design Space Exploration for Tensorized Neural Network Hardware Accelerators [11.97184801369339]
高次テンソル分解は、エッジ展開のためのコンパクトなディープニューラルネットワークを得るために広く採用されている。
このようなハードウェアを意識しない設計は、テンソル化モデルの潜在的な遅延とエネルギーの利点を曖昧にすることが多い。
テンソル化ニューラルネットワークの効率的なトレーニングと推論のために,これらの次元を統一設計空間内に統一する共同探索フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-22T08:18:40Z) - Knowledge-Informed Neural Network for Complex-Valued SAR Image Recognition [51.03674130115878]
本稿では,新しい「圧縮集約圧縮」アーキテクチャ上に構築された軽量なフレームワークであるKnowledge-Informed Neural Network(KINN)を紹介する。
KINNはパラメータ効率の認識における最先端を確立し、データスカースとアウト・オブ・ディストリビューションのシナリオにおいて例外的な一般化を提供する。
論文 参考訳(メタデータ) (2025-10-23T07:12:26Z) - Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。
本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文 参考訳(メタデータ) (2025-03-30T14:23:18Z) - LPViT: Low-Power Semi-structured Pruning for Vision Transformers [43.126752035656196]
画像解析タスクのための畳み込みニューラルネットワークに代わる有望な代替手段として、ビジョントランスフォーマーが登場した。
ViTの重大な欠点の1つは、リソース集約性であり、メモリフットプリント、複雑性、消費電力が増加することである。
我々は,ViTの資源集約的な問題に対処するため,新しいブロック構造プルーニングを導入し,精度とハードウェアアクセラレーションのバランスのとれたトレードオフを提供する。
論文 参考訳(メタデータ) (2024-07-02T08:58:19Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - FBNetV3: Joint Architecture-Recipe Search using Predictor Pretraining [65.39532971991778]
サンプル選択とランキングの両方を導くことで、アーキテクチャとトレーニングのレシピを共同でスコアする精度予測器を提案する。
高速な進化的検索をCPU分で実行し、さまざまなリソース制約に対するアーキテクチャと準備のペアを生成します。
FBNetV3は最先端のコンパクトニューラルネットワークのファミリーを構成しており、自動と手動で設計された競合より優れている。
論文 参考訳(メタデータ) (2020-06-03T05:20:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。