論文の概要: I Am Big, You Are Little; I Am Right, You Are Wrong
- arxiv url: http://arxiv.org/abs/2507.23509v1
- Date: Thu, 31 Jul 2025 12:45:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:09.738772
- Title: I Am Big, You Are Little; I Am Right, You Are Wrong
- Title(参考訳): I am Big, You are Little, I am Right, You Are Wrong
- Authors: David A. Kelly, Akchunya Chanchal, Nathan Blake,
- Abstract要約: モデルの濃度を測るために、最小限のピクセルセットを使用します。
画素の集合の位置、重なり、サイズを比較することで、異なるアーキテクチャが統計的に異なる濃度を持つことを識別する。
また、誤分類された画像は、正しい分類よりも大きな画素集合に関連付けられていることも確認した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning for image classification is an active and rapidly developing field. With the proliferation of classifiers of different sizes and different architectures, the problem of choosing the right model becomes more and more important. While we can assess a model's classification accuracy statistically, our understanding of the way these models work is unfortunately limited. In order to gain insight into the decision-making process of different vision models, we propose using minimal sufficient pixels sets to gauge a model's `concentration': the pixels that capture the essence of an image through the lens of the model. By comparing position, overlap, and size of sets of pixels, we identify that different architectures have statistically different concentration, in both size and position. In particular, ConvNext and EVA models differ markedly from the others. We also identify that images which are misclassified are associated with larger pixels sets than correct classifications.
- Abstract(参考訳): 画像分類のための機械学習は、活発で急速に発展している分野である。
異なるサイズと異なるアーキテクチャの分類器の普及に伴い、適切なモデルを選択することの問題はますます重要になる。
モデルの分類精度を統計的に評価できるが、これらのモデルの動作方法に対する我々の理解は残念ながら限られている。
異なる視覚モデルの意思決定過程の洞察を得るため,モデルの「集中」を測るために,最小限の画素セット,すなわちモデルのレンズを通して画像の本質を捉えた画素を提案する。
画素の集合の位置、重なり、サイズを比較することで、異なるアーキテクチャが大きさと位置の両方で統計的に異なる濃度を持つことを明らかにした。
特に、ConvNext と EVA のモデルは他のモデルと大きく異なる。
また、誤分類された画像は、正しい分類よりも大きな画素集合に関連付けられていることも確認した。
関連論文リスト
- Beyond Accuracy: What Matters in Designing Well-Behaved Models? [53.252827682118955]
視覚言語モデルでは,ImageNet-1k分類に高い公正性を示し,ドメイン変更に対して強い堅牢性を示す。
QUBAスコア(QUBA score)は、複数の品質の次元にまたがってモデルをランク付けする新しい指標である。
論文 参考訳(メタデータ) (2025-03-21T12:54:18Z) - Are Images Indistinguishable to Humans Also Indistinguishable to Classifiers? [39.31679737754048]
ニューラルネットワークベースの分類器の観点からは、高度な拡散モデルでさえもこの目標には程遠いことが示される。
本手法は,生成したデータの特定の特徴を解析することにより,拡散モデルの診断ツールとして自然に機能する。
次に、モデルオートファジー障害に光を当て、生成されたデータの使用に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-05-28T10:25:06Z) - When Do We Not Need Larger Vision Models? [55.957626371697785]
視覚モデルのサイズを拡大することが、より強力な視覚表現を得るためのデファクトスタンダードとなっている。
S$2のScaling on Scales(スケーリング・オン・スケール)のパワーを実演します。
1行のコードで任意のビジョンモデルにS$2$を適用可能なPythonパッケージをリリースします。
論文 参考訳(メタデータ) (2024-03-19T17:58:39Z) - Generalized Relevance Learning Grassmann Quantization [0.0]
イメージ集合をモデル化する一般的な方法は部分空間であり、グラスマン多様体と呼ばれる多様体を形成する。
一般化関連学習ベクトル量子化の応用を拡張して、グラスマン多様体を扱う。
本稿では,手書き文字認識,顔認識,アクティビティ認識,オブジェクト認識など,いくつかのタスクに適用する。
論文 参考訳(メタデータ) (2024-03-14T08:53:01Z) - Classes Are Not Equal: An Empirical Study on Image Recognition Fairness [100.36114135663836]
我々は,クラスが等しくないことを実験的に証明し,様々なデータセットにまたがる画像分類モデルにおいて,公平性の問題が顕著であることを示した。
以上の結果から,モデルでは認識が困難であるクラスに対して,予測バイアスが大きくなる傾向が示唆された。
データ拡張および表現学習アルゴリズムは、画像分類のある程度の公平性を促進することにより、全体的なパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2024-02-28T07:54:50Z) - Image Similarity using An Ensemble of Context-Sensitive Models [2.9490616593440317]
ラベル付きデータに基づく画像類似性モデルの構築と比較に,より直感的なアプローチを提案する。
画像空間(R,A,B)におけるスパースサンプリングの課題と,文脈に基づくデータを用いたモデルにおけるバイアスに対処する。
実験の結果,構築したアンサンブルモデルは,最高の文脈依存モデルよりも5%高い性能を示した。
論文 参考訳(メタデータ) (2024-01-15T20:23:05Z) - Probabilistic Deep Metric Learning for Hyperspectral Image
Classification [91.5747859691553]
本稿では,ハイパースペクトル画像分類のための確率論的深度学習フレームワークを提案する。
ハイパースペクトルセンサーが捉えた画像に対して、各ピクセルのカテゴリを予測することを目的としている。
我々のフレームワークは、既存のハイパースペクトル画像分類法に容易に適用できる。
論文 参考訳(メタデータ) (2022-11-15T17:57:12Z) - Vision Models Are More Robust And Fair When Pretrained On Uncurated
Images Without Supervision [38.22842778742829]
差別的な自己教師型学習は、インターネット画像の任意のランダムなグループでのトレーニングモデルを可能にする。
データ前処理や事前の仮定なしで、何十億ものランダムなイメージでモデルをトレーニングします。
フェアネス、分布シフト、地理的多様性、微粒化認識、画像コピー検出、および多くの画像分類データセットを含む50以上のベンチマークにおいて、我々のモデル性能を広範囲に研究し、検証した。
論文 参考訳(メタデータ) (2022-02-16T22:26:47Z) - ITSELF: Iterative Saliency Estimation fLexible Framework [68.8204255655161]
機密度オブジェクト検出は、画像で最も顕著なオブジェクトを推定する。
我々は,ユーザ定義の仮定をモデルに追加できる,スーパーピクセルベースのITELF(ITSELF)を提案する。
ITSELFを5つのメトリクスと6つのデータセットで2つの最先端の精度推定器と比較する。
論文 参考訳(メタデータ) (2020-06-30T16:51:31Z) - Improving Few-shot Learning by Spatially-aware Matching and
CrossTransformer [116.46533207849619]
数ショット学習シナリオにおけるスケールと位置ミスマッチの影響について検討する。
本稿では,複数のスケールや場所のマッチングを効果的に行うための,空間認識型マッチング手法を提案する。
論文 参考訳(メタデータ) (2020-01-06T14:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。