論文の概要: SiNGER: A Clearer Voice Distills Vision Transformers Further
- arxiv url: http://arxiv.org/abs/2509.20986v2
- Date: Mon, 29 Sep 2025 00:07:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 14:13:47.628845
- Title: SiNGER: A Clearer Voice Distills Vision Transformers Further
- Title(参考訳): SiNGER:視覚変換器をもっとクリアに
- Authors: Geunhyeok Yu, Sunjae Jeong, Yoonyoung Choi, Jaeseung Kim, Hyoseok Hwang,
- Abstract要約: 高ノルムのアーティファクトが目的を担っているため、学生はアーティファクトや過度な情報信号に過度に適合する。
以前の作業では、アーティファクトの除去を試みたが、アーティファクトの抑制と情報的信号の保存の間に固有のトレードオフに遭遇した。
Singular Nullspace-Guided Energy Reallocation (SiNGER)を紹介する。
- 参考スコア(独自算出の注目度): 7.579247995721887
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers are widely adopted as the backbone of vision foundation models, but they are known to produce high-norm artifacts that degrade representation quality. When knowledge distillation transfers these features to students, high-norm artifacts dominate the objective, so students overfit to artifacts and underweight informative signals, diminishing the gains from larger models. Prior work attempted to remove artifacts but encountered an inherent trade-off between artifact suppression and preserving informative signals from teachers. To address this, we introduce Singular Nullspace-Guided Energy Reallocation (SiNGER), a novel distillation framework that suppresses artifacts while preserving informative signals. The key idea is principled teacher feature refinement: during refinement, we leverage the nullspace-guided perturbation to preserve information while suppressing artifacts. Then, the refined teacher's features are distilled to a student. We implement this perturbation efficiently with a LoRA-based adapter that requires minimal structural modification. Extensive experiments show that \oursname consistently improves student models, achieving state-of-the-art performance in multiple downstream tasks and producing clearer and more interpretable representations.
- Abstract(参考訳): 視覚変換器は視覚基礎モデルのバックボーンとして広く採用されているが、表現の質を低下させる高ノルムのアーチファクトを作成することが知られている。
知識蒸留がこれらの特徴を学生に伝達する際、高ノルムの人工物が目的を左右するので、学生はアーティファクトや過度な情報信号に過度に適合し、より大きなモデルから得られる利益を減少させる。
以前の作業では、アーティファクトの除去を試みたが、アーティファクトの抑制と教師からの情報的信号の保存の間に固有のトレードオフに遭遇した。
そこで本研究では,情報信号を保持しながら人工物を抑制する新しい蒸留フレームワークであるSingular Nullspace-Guided Energy Reallocation (SiNGER)を紹介する。
鍵となる考え方は、教師の機能改善の原則である: 改良の間、我々はヌルスペース誘導摂動を利用して、アーティファクトを抑えながら情報を保存する。
そして、精製された教師の特徴を学生に蒸留する。
我々はこの摂動をLoRAベースのアダプタで効率的に実装し、最小限の構造修正を必要とする。
大規模な実験により, 学生モデルの改善が一貫して行われ, 複数の下流タスクにおける最先端のパフォーマンスが達成され, より明確で解釈可能な表現が得られている。
関連論文リスト
- Frequency Domain-Based Diffusion Model for Unpaired Image Dehazing [92.61216319417208]
そこで本稿では,未確認データにおける有益な知識を十分に活用するための,新しい周波数領域ベース拡散モデルを提案する。
拡散モデル(DM)が示す強い生成能力に着想を得て,周波数領域再構成の観点からデハージング課題に取り組む。
論文 参考訳(メタデータ) (2025-07-02T01:22:46Z) - Vision Transformers with Self-Distilled Registers [11.649023403110528]
ポストホックレジスタ (PH-Reg) は、レジスタを既存のViTに統合する効率的な自己蒸留方式であり、ラベル付きデータの追加やフルリトレーニングを必要としない。
提案手法は,ゼロショットおよび線形探索による学生のViTのセグメンテーションと深度予測を改善することにより,アーティファクトトークンの数を効果的に削減できることを示す。
論文 参考訳(メタデータ) (2025-05-27T17:59:41Z) - Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。
UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-04-19T14:08:56Z) - Promoting CNNs with Cross-Architecture Knowledge Distillation for Efficient Monocular Depth Estimation [4.242540533823568]
トランスフォーマーモデルは通常計算に精通し、その軽量モデルにおける有効性は畳み込みと比較して制限される。
本研究では, 最先端変圧器モデルを監督し, 効率的なCNNモデルを構築するために, DisDepth と呼ばれるMDE のクロスアーキテクチャ知識蒸留手法を提案する。
提案手法は, 種々の効率的な背骨に有意な改良を施し, 効率的な単分子深度推定の可能性を示した。
論文 参考訳(メタデータ) (2024-04-25T07:55:47Z) - Weight Copy and Low-Rank Adaptation for Few-Shot Distillation of Vision Transformers [22.1372572833618]
視覚変換器のための新規な数ショット特徴蒸留手法を提案する。
まず、既存の視覚変換器の断続的な層から、より浅いアーキテクチャ(学生)へと重みをコピーする。
次に、Low-Rank Adaptation (LoRA) の強化版を用いて、数ショットのシナリオで学生に知識を抽出する。
論文 参考訳(メタデータ) (2024-04-14T18:57:38Z) - Data-Independent Operator: A Training-Free Artifact Representation
Extractor for Generalizable Deepfake Detection [105.9932053078449]
本研究では,より一般的な人工物表現を捉えるのに,小型かつトレーニング不要なフィルタが十分であることを示す。
トレーニングソースとテストソースの両方に不偏があるため、未確認ソースに対して魅力的な改善を実現するために、Data-Independent Operator (DIO)と定義する。
我々の検出器は13.3%の大幅な改善を実現し、新しい最先端の性能を確立した。
論文 参考訳(メタデータ) (2024-03-11T15:22:28Z) - SynArtifact: Classifying and Alleviating Artifacts in Synthetic Images via Vision-Language Model [15.616316848126642]
総合的なアーティファクト分類法を開発し、微調整視覚言語モデル(VLM)のためのアーティファクトアノテーションを用いた合成画像のデータセットを構築する。
微調整されたVLMは、アーティファクトを識別し、ベースラインを25.66%上回る優れた能力を示す。
論文 参考訳(メタデータ) (2024-02-28T05:54:02Z) - Knowledge Diffusion for Distillation [53.908314960324915]
知識蒸留(KD)における教師と学生の表現ギャップ
これらの手法の本質は、ノイズ情報を捨て、その特徴の貴重な情報を蒸留することである。
DiffKDと呼ばれる新しいKD手法を提案し、拡散モデルを用いて特徴を明示的に識別し一致させる。
論文 参考訳(メタデータ) (2023-05-25T04:49:34Z) - Understanding invariance via feedforward inversion of discriminatively
trained classifiers [30.23199531528357]
過去の研究では、出力ログに余計な視覚的詳細が残っていることが判明した。
極めて高い忠実度を再現するフィードフォワードインバージョンモデルを開発する。
私たちのアプローチはBigGANをベースにしており、1ホットクラスのラベルの代わりにロジットのコンディショニングを行います。
論文 参考訳(メタデータ) (2021-03-15T17:56:06Z) - Knowledge Distillation Meets Self-Supervision [109.6400639148393]
知識蒸留では、教師ネットワークから「暗黒の知識」を抽出し、学生ネットワークの学習を指導する。
一見異なる自己超越的なタスクが、単純だが強力なソリューションとして機能することを示します。
これらの自己超越信号の類似性を補助的タスクとして活用することにより、隠された情報を教師から生徒に効果的に転送することができる。
論文 参考訳(メタデータ) (2020-06-12T12:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。