論文の概要: Beyond Accuracy: What Matters in Designing Well-Behaved Models?
- arxiv url: http://arxiv.org/abs/2503.17110v1
- Date: Fri, 21 Mar 2025 12:54:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:57:54.500957
- Title: Beyond Accuracy: What Matters in Designing Well-Behaved Models?
- Title(参考訳): 正確性を超えて: 優れたモデルの設計において何が重要か?
- Authors: Robin Hesse, Doğukan Bağcı, Bernt Schiele, Simone Schaub-Meyer, Stefan Roth,
- Abstract要約: 視覚言語モデルでは,ImageNet-1k分類に高い公正性を示し,ドメイン変更に対して強い堅牢性を示す。
QUBAスコア(QUBA score)は、複数の品質の次元にまたがってモデルをランク付けする新しい指標である。
- 参考スコア(独自算出の注目度): 53.252827682118955
- License:
- Abstract: Deep learning has become an essential part of computer vision, with deep neural networks (DNNs) excelling in predictive performance. However, they often fall short in other critical quality dimensions, such as robustness, calibration, or fairness. While existing studies have focused on a subset of these quality dimensions, none have explored a more general form of "well-behavedness" of DNNs. With this work, we address this gap by simultaneously studying nine different quality dimensions for image classification. Through a large-scale study, we provide a bird's-eye view by analyzing 326 backbone models and how different training paradigms and model architectures affect the quality dimensions. We reveal various new insights such that (i) vision-language models exhibit high fairness on ImageNet-1k classification and strong robustness against domain changes; (ii) self-supervised learning is an effective training paradigm to improve almost all considered quality dimensions; and (iii) the training dataset size is a major driver for most of the quality dimensions. We conclude our study by introducing the QUBA score (Quality Understanding Beyond Accuracy), a novel metric that ranks models across multiple dimensions of quality, enabling tailored recommendations based on specific user needs.
- Abstract(参考訳): ディープラーニングは、予測性能に優れたディープニューラルネットワーク(DNN)によって、コンピュータビジョンの重要な部分となっている。
しかしながら、ロバスト性、キャリブレーション、公平性など、他の重要な品質次元では不足することが多い。
既存の研究では、これらの品質次元のサブセットに焦点が当てられているが、DNNのより一般的な「幸福」の形式を探求する者はいない。
本研究は,画像分類のための9つの異なる品質次元を同時に研究することにより,このギャップに対処する。
大規模な研究を通じて、326のバックボーンモデルを分析し、異なるトレーニングパラダイムとモデルアーキテクチャが品質次元にどのように影響するかを明らかにする。
我々はそのように様々な新しい洞察を明らかにします。
(i)視覚言語モデルは、ImageNet-1k分類に高い公正性を示し、ドメイン変更に対して強い堅牢性を示す。
(II)自己指導型学習は、ほぼすべての品質次元を改善するための効果的な訓練パラダイムであり、
(iii)トレーニングデータセットのサイズは、ほとんどの品質次元の主要なドライバです。
QUBAスコア(Quality Understanding Beyond Accuracy)は、複数の品質の次元にまたがってモデルをランク付けし、特定のユーザニーズに基づいてカスタマイズされたレコメンデーションを可能にする新しい指標である。
関連論文リスト
- Q-Ground: Image Quality Grounding with Large Multi-modality Models [61.72022069880346]
Q-Groundは、大規模な視覚的品質グラウンドに取り組むための最初のフレームワークである。
Q-Groundは、大規模なマルチモダリティモデルと詳細な視覚的品質分析を組み合わせる。
コントリビューションの中心は、QGround-100Kデータセットの導入です。
論文 参考訳(メタデータ) (2024-07-24T06:42:46Z) - Opinion-Unaware Blind Image Quality Assessment using Multi-Scale Deep Feature Statistics [54.08757792080732]
我々は,事前学習された視覚モデルからの深い特徴を統計的解析モデルと統合して,意見認識のないBIQA(OU-BIQA)を実現することを提案する。
提案モデルは,最先端のBIQAモデルと比較して,人間の視覚的知覚との整合性に優れる。
論文 参考訳(メタデータ) (2024-05-29T06:09:34Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Learning Generalizable Perceptual Representations for Data-Efficient
No-Reference Image Quality Assessment [7.291687946822539]
最先端のNR-IQA技術の大きな欠点は、多数の人間のアノテーションに依存していることである。
低レベルな特徴の学習を、新しい品質に配慮したコントラスト損失を導入することで、歪みタイプの学習を可能にする。
両経路からゼロショット品質の予測を、完全に盲目な環境で設計する。
論文 参考訳(メタデータ) (2023-12-08T05:24:21Z) - Inter-model Interpretability: Self-supervised Models as a Case Study [0.2578242050187029]
テキスト・インター・モデル・インタプリタビリティを導入するためのDissectと呼ばれる最近の解釈可能性技術を構築した。
我々は、学習概念の観点から、モデル間の近さを明らかにする学習概念埋め込み空間に、トップパフォーマンスの自己教師型モデル13を投影する。
この実験により、モデルを3つのカテゴリに分類し、異なるタスクが必要とする視覚概念の種類を初めて明らかにしました。
論文 参考訳(メタデータ) (2022-07-24T22:50:18Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - Self-Supervised Visual Representation Learning Using Lightweight
Architectures [0.0]
自己教師付き学習では、マシンによってアノテーションが生成されるデータセットを使用して、プレテキストタスクを解決するためにモデルが訓練される。
我々は、画像データから特徴を抽出する最も顕著な前文タスクを批判的に検討する。
我々は、他の全てのパラメータを均一に保ちながら、様々な自己監督技術の性能について研究する。
論文 参考訳(メタデータ) (2021-10-21T14:13:10Z) - Learning to Resize Images for Computer Vision Tasks [15.381549764216134]
そこで本研究では,リニアリシライザを学習リシライザに置き換えることで,性能を大幅に向上できることを示す。
我々の学習画像復調器はベースライン視覚モデルで共同で訓練されている。
提案手法は,他の視覚タスクの分類ベースラインの微調整にも有用であることを示す。
論文 参考訳(メタデータ) (2021-03-17T23:43:44Z) - Empirical Performance Analysis of Conventional Deep Learning Models for
Recognition of Objects in 2-D Images [0.0]
学習率,フィルタサイズ,隠蔽層数,ストライドサイズ,アクティベーション関数など,さまざまなパラメータを用いてモデルの性能を解析する。
モデルでは、画像は車、顔、飛行機の3つのカテゴリに分類される。
論文 参考訳(メタデータ) (2020-11-12T20:14:03Z) - Rethinking Generalization of Neural Models: A Named Entity Recognition
Case Study [81.11161697133095]
NERタスクをテストベッドとして、異なる視点から既存モデルの一般化挙動を分析する。
詳細な分析による実験は、既存のニューラルNERモデルのボトルネックを診断する。
本論文の副産物として,最近のNER論文の包括的要約を含むプロジェクトをオープンソース化した。
論文 参考訳(メタデータ) (2020-01-12T04:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。