Fugu-MT 論文翻訳(概要): Balancing Accuracy, Calibration, and Efficiency in Active Learning with Vision Transformers Under Label Noise

論文の概要: Balancing Accuracy, Calibration, and Efficiency in Active Learning with Vision Transformers Under Label Noise

arxiv url: http://arxiv.org/abs/2505.04375v1
Date: Wed, 07 May 2025 12:53:13 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-08 19:07:36.073975
Title: Balancing Accuracy, Calibration, and Efficiency in Active Learning with Vision Transformers Under Label Noise
Title（参考訳）: ララベル雑音下での視覚変換器を用いた能動学習における精度・校正・効率のバランス
Authors: Moseli Mots'oehli, Hope Mogale, Kyungim Baek,
Abstract要約: 本研究では,低予算制約および雑音ラベル下での視覚変換器の性能に及ぼすモデルサイズの影響について検討した。より大型のViTモデルは、中程度から高いラベルノイズの下でも、精度とキャリブレーションの両方において、より小型のモデルよりも一貫して優れていることを示す。情報に基づくアクティブラーニング戦略は、中程度のラベルノイズ率で有意な精度の向上しか得られないが、ランダムに取得したラベルで訓練されたモデルに比べてキャリブレーションが低くなる。
参考スコア（独自算出の注目度）: 1.4269314427770698
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Fine-tuning pre-trained convolutional neural networks on ImageNet for downstream tasks is well-established. Still, the impact of model size on the performance of vision transformers in similar scenarios, particularly under label noise, remains largely unexplored. Given the utility and versatility of transformer architectures, this study investigates their practicality under low-budget constraints and noisy labels. We explore how classification accuracy and calibration are affected by symmetric label noise in active learning settings, evaluating four vision transformer configurations (Base and Large with 16x16 and 32x32 patch sizes) and three Swin Transformer configurations (Tiny, Small, and Base) on CIFAR10 and CIFAR100 datasets, under varying label noise rates. Our findings show that larger ViT models (ViTl32 in particular) consistently outperform their smaller counterparts in both accuracy and calibration, even under moderate to high label noise, while Swin Transformers exhibit weaker robustness across all noise levels. We find that smaller patch sizes do not always lead to better performance, as ViTl16 performs consistently worse than ViTl32 while incurring a higher computational cost. We also find that information-based Active Learning strategies only provide meaningful accuracy improvements at moderate label noise rates, but they result in poorer calibration compared to models trained on randomly acquired labels, especially at high label noise rates. We hope these insights provide actionable guidance for practitioners looking to deploy vision transformers in resource-constrained environments, where balancing model complexity, label noise, and compute efficiency is critical in model fine-tuning or distillation.
Abstract（参考訳）: 下流タスクのためのImageNet上の微調整済みの畳み込みニューラルネットワークは、十分に確立されている。それでも、モデルサイズが類似のシナリオ、特にラベルノイズ下での視覚変換器の性能に与える影響は、明らかにされていない。トランスアーキテクチャの有用性と汎用性を考慮して,低予算制約および雑音ラベル下での実用性を検討した。 CIFAR10およびCIFAR100データセット上の4つの視覚変換器構成(Base, Large, 16x16, 32x32パッチサイズ)と3つのスウィン変換器構成(Tiny, Small, Base)をラベルノイズ率で評価し、能動的学習環境における対称ラベル雑音の影響について検討した。以上の結果から,より大型のViTモデル(特にViTl32)は,中程度から高いラベル雑音下であっても,精度とキャリブレーションの両面で常に小型モデルよりも優れており,Swin Transformersはすべてのノイズレベルにおいて弱いロバスト性を示すことがわかった。 ViTl16は高い計算コストを伴いながら、ViTl32よりも一貫してパフォーマンスが悪くなるため、パッチサイズが小さければパフォーマンスが向上するとは限らない。また、情報に基づくアクティブラーニング戦略は、中程度のラベルノイズレートでのみ有意な精度向上をもたらすが、ランダムに取得したラベル、特に高ラベルノイズレートでトレーニングされたモデルに比べてキャリブレーションが低下することがわかった。これらの知見は、モデルの複雑さ、ラベルノイズ、計算効率のバランスがモデル微調整や蒸留において重要である、リソース制約のある環境でビジョントランスフォーマーをデプロイしようとする実践者に対して、実用的なガイダンスを提供することを期待します。

関連論文リスト

Learning from Noisy Labels with Contrastive Co-Transformer [34.57067426872957]
CNNはノイズラベルを持つサンプルの存在に過度に適合する傾向にある。 Contrastive Co-Transformerフレームワークを導入し、シンプルで高速であるが、大きなマージンで性能を向上させることができる。
論文参考訳（メタデータ） (2025-03-04T22:48:43Z)
Set a Thief to Catch a Thief: Combating Label Noise through Noisy Meta Learning [6.68999525326685]
ノイズラベル(LNL)からの学習は、ノイズデータセットを使用して高性能なディープモデルをトレーニングすることを目的としている。本稿では,ラベルノイズの補正にノイズデータを用いる新しい雑音付きメタラベル補正フレームワークSTCTを提案する。 STCTは、96.9%のラベル修正と95.2%の分類性能をCIFAR-10で達成し、80%の対称ノイズを持つ。
論文参考訳（メタデータ） (2025-02-22T05:58:01Z)
GCI-ViTAL: Gradual Confidence Improvement with Vision Transformers for Active Learning on Label Noise [1.603727941931813]
本研究では,CIFAR10,CIFAR100,Food101,Chest X線データセットのAL手法を比較し,画像分類タスクに焦点を当てた。本稿では,ノイズのラベル付けに頑健な新しいディープラーニングアルゴリズムGCI-ViTALを提案する。
論文参考訳（メタデータ） (2024-11-08T19:59:40Z)
Investigating the Robustness of Vision Transformers against Label Noise in Medical Image Classification [8.578500152567164]
医用画像分類データセットにおけるラベルノイズは、教師付き深層学習法の訓練を邪魔する。プレトレーニングは、教師あり訓練におけるラベルノイズに対するViTの堅牢性向上に不可欠であることを示す。
論文参考訳（メタデータ） (2024-02-26T16:53:23Z)
Learning under Label Noise through Few-Shot Human-in-the-Loop Refinement [37.4838454216137]
FHLR(Few-Shot Human-in-the-Loop Refinement)は、雑音ラベル学習のための新しいソリューションである。雑音ラベルから学習するとFHLRの性能が著しく向上することを示す。我々の研究は、ハイテイクなヘルスセンシングベンチマークでより良い一般化を達成するだけでなく、ノイズが一般的に使われているモデルにどのように影響するかにも光を当てています。
論文参考訳（メタデータ） (2024-01-25T11:43:35Z)
Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2022-10-13T04:00:29Z)
The Lazy Neuron Phenomenon: On Emergence of Activation Sparsity in Transformers [59.87030906486969]
本稿では,Transformer アーキテクチャを用いた機械学習モデルにおいて,アクティベーションマップが疎いという興味深い現象について考察する。本稿では, 自然言語処理と視覚処理の両方において, スパーシリティが顕著な現象であることを示す。本稿では,変換器のFLOP数を大幅に削減し,効率を向上する手法について論じる。
論文参考訳（メタデータ） (2022-10-12T15:25:19Z)
Treatment Learning Causal Transformer for Noisy Image Classification [62.639851972495094]
本研究では,この2値情報「ノイズの存在」を画像分類タスクに組み込んで予測精度を向上させる。因果的変動推定から動機付け,雑音画像分類のための頑健な特徴表現を潜在生成モデルを用いて推定するトランスフォーマーに基づくアーキテクチャを提案する。また、パフォーマンスベンチマークのための幅広いノイズ要素を取り入れた、新しいノイズの多い画像データセットも作成する。
論文参考訳（メタデータ） (2022-03-29T13:07:53Z)
When Vision Transformers Outperform ResNets without Pretraining or Strong Data Augmentations [111.44860506703307]
Vision Transformer (ViTs) と既存のVisionNetsは、ハンドワイヤ機能やインダクティブスループットを汎用神経アーキテクチャに置き換えようとしている。本稿では、損失幾何学のレンズからViTとRes-Mixersを解析し、トレーニングおよび推論時のモデルのデータ効率を改善することを目的とする。最初の数層では、スペーサー活動ニューロンの頑健性が改善していることが示されている。その結果、ViTsは、大規模な事前トレーニングや強力なデータ拡張なしに、ImageNet上でスクラッチからトレーニングした時に、同様のサイズと滑らかさのネットより優れています。
論文参考訳（メタデータ） (2021-06-03T02:08:03Z)
Training Classifiers that are Universally Robust to All Label Noise Levels [91.13870793906968]
ディープニューラルネットワークは、ラベルノイズの存在下で過度に適合する傾向がある。ポジティヴ・アンラベルラーニングの新たなサブカテゴリを取り入れた蒸留ベースのフレームワークを提案する。我々の枠組みは概して中～高騒音レベルにおいて優れています。
論文参考訳（メタデータ） (2021-05-27T13:49:31Z)
Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。 ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文参考訳（メタデータ） (2021-05-17T02:39:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。