Fugu-MT 論文翻訳(概要): MimiQ: Low-Bit Data-Free Quantization of Vision Transformers with Encouraging Inter-Head Attention Similarity

論文の概要: MimiQ: Low-Bit Data-Free Quantization of Vision Transformers with Encouraging Inter-Head Attention Similarity

arxiv url: http://arxiv.org/abs/2407.20021v2
Date: Tue, 30 Jul 2024 02:03:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-31 12:20:00.555945
Title: MimiQ: Low-Bit Data-Free Quantization of Vision Transformers with Encouraging Inter-Head Attention Similarity
Title（参考訳）: MimiQ: 視覚変換器の低ビットデータフリー量子化
Authors: Kanghyun Choi, Hye Yoon Lee, Dain Kwon, SunJong Park, Kyuyeun Kim, Noseong Park, Jinho Lee,
Abstract要約: データフリー量子化(DFQ)は、元のトレーニングデータなしで、しばしば合成データセットを通じて、フル精度のネットワークから軽量なネットワークを作成するテクニックである。視覚変換器(ViT)アーキテクチャにはいくつかのDFQ法が提案されているが、低ビット設定では有効性は得られていない。本稿では,視覚障害者を対象とした新しいDFQ手法であるanameを提案する。
参考スコア（独自算出の注目度）: 22.058051526676998
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Data-free quantization (DFQ) is a technique that creates a lightweight network from its full-precision counterpart without the original training data, often through a synthetic dataset. Although several DFQ methods have been proposed for vision transformer (ViT) architectures, they fail to achieve efficacy in low-bit settings. Examining the existing methods, we identify that their synthetic data produce misaligned attention maps, while those of the real samples are highly aligned. From the observation of aligned attention, we find that aligning attention maps of synthetic data helps to improve the overall performance of quantized ViTs. Motivated by this finding, we devise \aname, a novel DFQ method designed for ViTs that focuses on inter-head attention similarity. First, we generate synthetic data by aligning head-wise attention responses in relation to spatial query patches. Then, we apply head-wise structural attention distillation to align the attention maps of the quantized network to those of the full-precision teacher. The experimental results show that the proposed method significantly outperforms baselines, setting a new state-of-the-art performance for data-free ViT quantization.
Abstract（参考訳）: データフリー量子化(DFQ)は、元のトレーニングデータなしで、しばしば合成データセットを通じて、フル精度のネットワークから軽量なネットワークを作成するテクニックである。視覚変換器(ViT)アーキテクチャにはいくつかのDFQ手法が提案されているが、低ビット設定では有効性は得られていない。既存の手法を調べると、それらの合成データは、実際のサンプルが高度に整列しているのに対して、不整合注意マップを生成する。一致した注意の観測から、合成データのアライメント・アライメント・マップは、量子化されたViTの全体的な性能を向上させるのに役立つことが判明した。この発見に触発され,視覚障害者を対象とした新しいDFQ手法である \aname を考案した。まず,空間的な問合せパッチに関連して,頭部の注意応答を調整して合成データを生成する。そこで,本研究では,頭部構造型注意蒸留法を用いて,量子化ネットワークの注意図と実精度教師の注意図を一致させる。実験の結果,提案手法はベースラインを著しく上回り,データフリーなViT量子化のための新しい最先端性能が確立された。

関連論文リスト

The Inductive Bottleneck: Data-Driven Emergence of Representational Sparsity in Vision Transformers [0.0]
視覚変換器(ViT)は畳み込みニューラルネットワーク(CNN)固有の階層的帰納バイアスを欠いている近年の観察では、ViTは最終分類のために拡張する前に、中央層で自発的に「U字型」エントロピープロファイル圧縮情報を示すことが示唆されている。
論文参考訳（メタデータ） (2025-12-08T09:18:32Z)
Mechanisms of Non-Monotonic Scaling in Vision Transformers [0.0]
我々は、深度で表現がどのように進化するかを規定する三相クリフ・オー・クリムブパターンを定式化する。 Information Scrambling Indexと混在する情報のパターンを定量化し、ViT-Lでは、情報タスクのトレードオフがViT-Bよりも約10層遅れていることを示す。
論文参考訳（メタデータ） (2025-11-26T18:07:14Z)
Knowledge-Informed Neural Network for Complex-Valued SAR Image Recognition [51.03674130115878]
本稿では,新しい「圧縮集約圧縮」アーキテクチャ上に構築された軽量なフレームワークであるKnowledge-Informed Neural Network(KINN)を紹介する。 KINNはパラメータ効率の認識における最先端を確立し、データスカースとアウト・オブ・ディストリビューションのシナリオにおいて例外的な一般化を提供する。
論文参考訳（メタデータ） (2025-10-23T07:12:26Z)
Scaling Transformer-Based Novel View Synthesis Models with Token Disentanglement and Synthetic Data [53.040873127309766]
本稿では,トランスアーキテクチャ内でのトークンのアンタングル化プロセスを提案し,特徴分離を向上し,より効果的な学習を実現する。提案手法は,データセット内およびデータセット間の評価において,既存のモデルよりも優れる。
論文参考訳（メタデータ） (2025-09-08T17:58:06Z)
Dataset Distillation with Probabilistic Latent Features [9.318549327568695]
合成データのコンパクトなセットは、下流の分類タスクにおける元のデータセットを効果的に置き換えることができる。本稿では,潜在特徴の共分散をモデル化する新しい手法を提案する。提案手法は,バックボーンアーキテクチャにまたがる最先端のクロスアーキテクチャ性能を実現する。
論文参考訳（メタデータ） (2025-05-10T13:53:49Z)
TD3: Tucker Decomposition Based Dataset Distillation Method for Sequential Recommendation [50.23504065567638]
本稿では,メタラーニングフレームワークにおける textbfDataset textbfDistillation 手法である textbfTD3 を紹介する。 TD3は、オリジナルのデータから完全に表現力のある合成配列の要約を蒸留する。拡張技術により、学習者は合成要約を忠実に適合させ、アンプループでの正確な更新を確実にすることができる。
論文参考訳（メタデータ） (2025-02-05T03:13:25Z)
Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2024-11-02T18:18:35Z)
Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文参考訳（メタデータ） (2024-09-20T07:41:47Z)
LRP-QViT: Mixed-Precision Vision Transformer Quantization via Layer-wise Relevance Propagation [0.0]
LRP-QViTは、異なる層に混合精度のビット割り当てを割り当てる説明可能性に基づく手法である。実験結果から,固定ビット・混合ビット後量子化法が既存の4ビット・6ビット量子化法を超越していることが判明した。
論文参考訳（メタデータ） (2024-01-20T14:53:19Z)
Laplacian-Former: Overcoming the Limitations of Vision Transformers in Local Texture Detection [3.784298636620067]
Vision Transformer (ViT) モデルは、幅広いコンピュータビジョンタスクにおいてブレークスルーを実証している。これらのモデルは、画像の高周波成分を捉えるのに苦労しており、局所的なテクスチャやエッジ情報を検出する能力を制限することができる。本稿では,ラプラシアンピラミッド内の周波数情報を適応的に補正することで自己注意マップを向上する新しい手法であるラプラシアン・フォーマーを提案する。
論文参考訳（メタデータ） (2023-08-31T19:56:14Z)
Learning Feature Matching via Matchable Keypoint-Assisted Graph Neural Network [52.29330138835208]
画像のペア間の局所的な特徴の正確なマッチングは、コンピュータビジョンの課題である。従来の研究では、注意に基づくグラフニューラルネットワーク(GNN)と、画像内のキーポイントに完全に接続されたグラフを使用するのが一般的だった。本稿では,非繰り返しキーポイントをバイパスし,マッチング可能なキーポイントを利用してメッセージパッシングを誘導する,疎注意に基づくGNNアーキテクチャであるMaKeGNNを提案する。
論文参考訳（メタデータ） (2023-07-04T02:50:44Z)
Enhancing Performance of Vision Transformers on Small Datasets through Local Inductive Bias Incorporation [13.056764072568749]
ビジョントランスフォーマー(ViT)は、大規模なデータセットでは顕著なパフォーマンスを達成するが、小さなデータセットでは畳み込みニューラルネットワーク(CNN)よりもパフォーマンスが悪くなる傾向がある。本稿では、パッチレベルのローカル情報を抽出し、ViTの自己保持ブロックで使用される埋め込みに組み込む、ローカルInFormation Enhancer (LIFE) と呼ばれるモジュールを提案する。提案するモジュールはメモリと効率が良く, 分類や蒸留トークンなどの補助トークンを処理できるほど柔軟である。
論文参考訳（メタデータ） (2023-05-15T11:23:18Z)
From Saliency to DINO: Saliency-guided Vision Transformer for Few-shot Keypoint Detection [36.9781808268263]
FSKD(Few-shot Keypoint Detection)は、参照サンプルに応じて、新規またはベースキーポイントを含むキーポイントをローカライズする。 FSKDは、ユビキタスノイズと曖昧な局所パターンを克服するために、キーポイント類似性学習に意味論的に意味のある関係を必要とする。数発のキーポイント検出のための新しいサリエンシ誘導型視覚変換器であるSalViTを提案する。
論文参考訳（メタデータ） (2023-04-06T15:22:34Z)
A Theoretical Understanding of Shallow Vision Transformers: Learning, Generalization, and Sample Complexity [71.11795737362459]
自己注意モジュールを持つViTは、最近多くのタスクで経験的な成功を収めた。しかし、理論学習の一般化分析は、ほとんどノイズが多く、解答的である。本稿では,分類タスクのための浅いViTの理論的解析を行った。
論文参考訳（メタデータ） (2023-02-12T22:12:35Z)
AU-Aware Vision Transformers for Biased Facial Expression Recognition [17.00557858587472]
本研究では,複数のFERデータセットのナイーブな共同トレーニングが個々のFERデータセットのパフォーマンスに有害であることを示す。 AU-ViT(AU-Aware Vision Transformer)を提案する。私たちのAU-ViTは、RAF-DBで91.10%、AffectNetで65.59%、FERPlusで90.15%という、一般的な3つのデータセットで最先端のパフォーマンスを実現しています。
論文参考訳（メタデータ） (2022-11-12T08:58:54Z)
Dataset Distillation via Factorization [58.8114016318593]
既存のデータセット蒸留(DD)ベースラインに移植可能なプラグ・アンド・プレイ戦略であるEmphHaBaと呼ばれるEmphdataset Factorizationアプローチを導入する。 emphHaBaは、データセットをデータemphHallucinationネットワークとemphBaseの2つのコンポーネントに分解する方法を探っている。提案手法は, 圧縮パラメータの総数を最大65%削減しつつ, 下流の分類タスクを従来に比べて大幅に改善することができる。
論文参考訳（メタデータ） (2022-10-30T08:36:19Z)
Imposing Consistency for Optical Flow Estimation [73.53204596544472]
プロキシタスクによる一貫性の導入は、データ駆動学習を強化することが示されている。本稿では,光フロー推定のための新しい,効果的な整合性戦略を提案する。
論文参考訳（メタデータ） (2022-04-14T22:58:30Z)
CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文参考訳（メタデータ） (2022-03-03T05:58:49Z)
Neural BRDF Representation and Importance Sampling [79.84316447473873]
本稿では,リフレクタンスBRDFデータのコンパクトニューラルネットワークに基づく表現について述べる。 BRDFを軽量ネットワークとしてエンコードし、適応角サンプリングによるトレーニングスキームを提案する。複数の実世界のデータセットから等方性および異方性BRDFの符号化結果を評価する。
論文参考訳（メタデータ） (2021-02-11T12:00:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。