論文の概要: Scaling Semantic Categories: Investigating the Impact on Vision Transformer Labeling Performance
- arxiv url: http://arxiv.org/abs/2503.12617v1
- Date: Sun, 16 Mar 2025 19:14:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 16:00:37.722838
- Title: Scaling Semantic Categories: Investigating the Impact on Vision Transformer Labeling Performance
- Title(参考訳): セマンティックカテゴリのスケーリング:ビジョントランスフォーマーラベル性能への影響を探る
- Authors: Anthony Lamelas, Harrison Muchnic,
- Abstract要約: 本研究では,視覚変換器(ViT)の画像分類性能に及ぼす意味圏のスケーリングの影響について検討する。
この研究は、基礎的な真実の数と人工的に導入された意味論的等価なカテゴリが増加するにつれて、ViTsのラベル付け精度は理論的な最大値や限界に達するまで向上する、という仮説を立てている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This study explores the impact of scaling semantic categories on the image classification performance of vision transformers (ViTs). In this specific case, the CLIP server provided by Jina AI is used for experimentation. The research hypothesizes that as the number of ground truth and artificially introduced semantically equivalent categories increases, the labeling accuracy of ViTs improves until a theoretical maximum or limit is reached. A wide variety of image datasets were chosen to test this hypothesis. These datasets were processed through a custom function in Python designed to evaluate the model's accuracy, with adjustments being made to account for format differences between datasets. By exponentially introducing new redundant categories, the experiment assessed accuracy trends until they plateaued, decreased, or fluctuated inconsistently. The findings show that while semantic scaling initially increases model performance, the benefits diminish or reverse after surpassing a critical threshold, providing insight into the limitations and possible optimization of category labeling strategies for ViTs.
- Abstract(参考訳): 本研究では,視覚変換器(ViT)の画像分類性能に及ぼす意味圏のスケーリングの影響について検討する。
この特定のケースでは、Jina AIが提供するCLIPサーバが実験に使用される。
この研究は、基礎的な真実の数と人工的に導入された意味論的等価なカテゴリが増加するにつれて、ViTsのラベル付け精度は理論的な最大値や限界に達するまで向上する、という仮説を立てている。
この仮説をテストするために、様々な画像データセットが選ばれた。
これらのデータセットは、モデルの精度を評価するように設計されたPythonのカスタム関数を通じて処理され、データセット間のフォーマットの違いを考慮に入れられた。
新しい冗長なカテゴリを指数関数的に導入することにより、実験は、不安定になるまで、あるいは減少するか、不整合に変動するまで、精度の傾向を評価した。
その結果,セマンティックスケーリングは当初はモデル性能を向上するが,重要なしきい値を越えるとメリットは低下または逆転し,ViTのカテゴリラベリング戦略の限界と最適化の可能性を示唆した。
関連論文リスト
- CLAMP-ViT: Contrastive Data-Free Learning for Adaptive Post-Training Quantization of ViTs [6.456189487006878]
視覚変換器(ViT)のためのデータフリー後学習量子化法であるCLAMP-ViTを提案する。
我々は、近年の手法の限界、特に意味のあるパッチ間の関係を活用できないことを特定する。
CLAMP-ViTは2段階のアプローチを採用し、データ生成とモデル量子化の間に循環的に適応する。
論文 参考訳(メタデータ) (2024-07-07T05:39:25Z) - Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。
本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。
本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-01T11:15:50Z) - Variational Classification [51.2541371924591]
我々は,変分オートエンコーダの訓練に用いるエビデンスローバウンド(ELBO)に類似した,モデルの訓練を目的とした変分目的を導出する。
軟質マックス層への入力を潜伏変数のサンプルとして扱うことで, 抽象化された視点から, 潜在的な矛盾が明らかとなった。
我々は、標準ソフトマックス層に見られる暗黙の仮定の代わりに、選択された潜在分布を誘導する。
論文 参考訳(メタデータ) (2023-05-17T17:47:19Z) - The choice of scaling technique matters for classification performance [6.745479230590518]
モノリシックモデルとアンサンブルモデルにおける5つのスケーリング手法が20の分類アルゴリズムの性能に与える影響を比較した。
その結果,ほとんどの場合,最高のスケーリング手法と最悪のスケーリング手法のパフォーマンス差は関連性があり,統計的に有意であることがわかった。
また,異なるスケーリング手法を考慮に入れたアンサンブルモデルの性能変動が,ベースモデルの性能変化によって予測される傾向があることを示す。
論文 参考訳(メタデータ) (2022-12-23T13:51:45Z) - Fine-grained Retrieval Prompt Tuning [149.9071858259279]
微粒な検索プロンプトチューニングは, サンプルプロンプトと特徴適応の観点から, きめの細かい検索タスクを実行するために, 凍結した事前学習モデルを操る。
学習可能なパラメータが少ないFRPTは、広く使われている3つの細粒度データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-29T04:10:04Z) - Adaptive Fine-Grained Predicates Learning for Scene Graph Generation [122.4588401267544]
一般的なシーングラフ生成(SGG)モデルは、頭部の述語を予測する傾向があり、再バランス戦略は尾のカテゴリを好む。
本稿では,SGGの難解な述語を識別することを目的とした適応的微粒述語学習(FGPL-A)を提案する。
提案したモデル非依存戦略は,VG-SGGおよびGQA-SGGデータセットのベンチマークモデルの性能を最大175%,Mean Recall@100では76%向上させ,新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-11T03:37:57Z) - Improved Text Classification via Test-Time Augmentation [2.493374942115722]
テスト時間拡張は画像分類モデルの性能を向上させるための確立された手法である。
本稿では,言語モデルによる精度向上を実現するための拡張ポリシーを提案する。
バイナリ分類タスクとデータセットによる実験は、テスト時間拡張が一貫した改善をもたらすことを示している。
論文 参考訳(メタデータ) (2022-06-27T19:57:27Z) - Treatment Learning Causal Transformer for Noisy Image Classification [62.639851972495094]
本研究では,この2値情報「ノイズの存在」を画像分類タスクに組み込んで予測精度を向上させる。
因果的変動推定から動機付け,雑音画像分類のための頑健な特徴表現を潜在生成モデルを用いて推定するトランスフォーマーに基づくアーキテクチャを提案する。
また、パフォーマンスベンチマークのための幅広いノイズ要素を取り入れた、新しいノイズの多い画像データセットも作成する。
論文 参考訳(メタデータ) (2022-03-29T13:07:53Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。