論文の概要: Foundation Model-oriented Robustness: Robust Image Model Evaluation with
Pretrained Models
- arxiv url: http://arxiv.org/abs/2308.10632v2
- Date: Wed, 23 Aug 2023 06:41:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 11:25:58.404519
- Title: Foundation Model-oriented Robustness: Robust Image Model Evaluation with
Pretrained Models
- Title(参考訳): 基礎モデル指向ロバスト性:事前学習モデルによるロバスト画像モデル評価
- Authors: Peiyan Zhang, Haoyang Liu, Chaozhuo Li, Xing Xie, Sunghun Kim, Haohan
Wang
- Abstract要約: 本稿では,サロゲートオラクルと比較して画像分類モデルの性能を直接測定する新しいロバストネス測定手法を提案する。
我々の新しい手法は、固定ベンチマークや制約付き摂動の制限なしに、モデルの堅牢性を評価する新しい方法を提供する。
- 参考スコア(独自算出の注目度): 40.44187394903713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning has demonstrated remarkable performance over finite
datasets, yet whether the scores over the fixed benchmarks can sufficiently
indicate the model's performance in the real world is still in discussion. In
reality, an ideal robust model will probably behave similarly to the oracle
(e.g., the human users), thus a good evaluation protocol is probably to
evaluate the models' behaviors in comparison to the oracle. In this paper, we
introduce a new robustness measurement that directly measures the image
classification model's performance compared with a surrogate oracle (i.e., a
foundation model). Besides, we design a simple method that can accomplish the
evaluation beyond the scope of the benchmarks. Our method extends the image
datasets with new samples that are sufficiently perturbed to be distinct from
the ones in the original sets, but are still bounded within the same
image-label structure the original test image represents, constrained by a
foundation model pretrained with a large amount of samples. As a result, our
new method will offer us a new way to evaluate the models' robustness
performance, free of limitations of fixed benchmarks or constrained
perturbations, although scoped by the power of the oracle. In addition to the
evaluation results, we also leverage our generated data to understand the
behaviors of the model and our new evaluation strategies.
- Abstract(参考訳): 機械学習は有限データセットに対して顕著なパフォーマンスを示しているが、固定ベンチマークのスコアが実世界のモデルのパフォーマンスを十分に示せるかどうかはまだ議論中である。
実際、理想的なロバストモデルは、おそらくオラクル(例えば、人間のユーザー)と同様に振る舞うので、良い評価プロトコルは、オラクルと比較してモデルの振舞いを評価することである。
本稿では,サロゲートオラクル(基礎モデル)と比較して画像分類モデルの性能を直接測定する新しいロバスト性測定手法を提案する。
さらに,ベンチマークの範囲を超えた評価を実現するための簡単な方法も設計する。
本手法では, 画像データセットを新たなサンプルで拡張し, 元のセットと区別するのに十分な摂動性を持つが, 元のテスト画像が表現する同じ画像ラベル構造内に, 大量のサンプルで事前学習された基礎モデルによって制約される。
結果として、私たちの新しい手法は、oracleの力によってスコープされているが、固定されたベンチマークや制約付き摂動の制限のない、モデルの堅牢性パフォーマンスを評価する新しい方法を提供します。
評価結果に加えて,生成したデータを活用して,モデルの振る舞いと新たな評価戦略を理解する。
関連論文リスト
- Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - Intriguing Differences Between Zero-Shot and Systematic Evaluations of
Vision-Language Transformer Models [7.360937524701675]
トランスフォーマーベースのモデルは、ベンチマークデータセットにおける優れた(ゼロショット)パフォーマンスのために、ここ数年で自然言語処理やその他の領域を支配してきた。
本稿では,新しい勾配勾配勾配最適化法に基づいて,一般的に使用される視覚言語モデルの埋め込み空間を探索する。
Imagenetteデータセットを用いて、モデルが99%以上のゼロショット分類性能を達成する一方で、体系的な評価を完全に失敗することを示した。
論文 参考訳(メタデータ) (2024-02-13T14:07:49Z) - FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z) - Anchor Points: Benchmarking Models with Much Fewer Examples [88.02417913161356]
6つの人気のある言語分類ベンチマークでは、多数の点の正しいクラスに対するモデル信頼度はモデル間で強く相関している。
Anchor Point Selectionは,データセット全体にわたるモデル動作をキャプチャする,データセットの小さなサブセットを選択する手法である。
平均絶対誤差が低いデータセットの他のすべての点について、クラスごとの予測モデルを推定するために、いくつかのアンカーポイントを使用することができる。
論文 参考訳(メタデータ) (2023-09-14T17:45:51Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - Evaluating Representations with Readout Model Switching [19.907607374144167]
本稿では,最小記述長(MDL)の原理を用いて評価指標を考案する。
我々は、読み出しモデルのためのハイブリッド離散および連続値モデル空間を設計し、それらの予測を組み合わせるために切替戦略を用いる。
提案手法はオンライン手法で効率的に計算でき,様々なアーキテクチャの事前学習された視覚エンコーダに対する結果を示す。
論文 参考訳(メタデータ) (2023-02-19T14:08:01Z) - Effective Robustness against Natural Distribution Shifts for Models with
Different Training Data [113.21868839569]
効果的ロバスト性」は、分配内(ID)性能から予測できる以上の余分な分配外ロバスト性を測定する。
異なるデータに基づいてトレーニングされたモデルの有効ロバスト性を評価・比較するための新しい評価指標を提案する。
論文 参考訳(メタデータ) (2023-02-02T19:28:41Z) - RockNER: A Simple Method to Create Adversarial Examples for Evaluating
the Robustness of Named Entity Recognition Models [32.806292167848156]
名前付きエンティティ認識モデルのロバスト性を評価するためにRockNERを提案する。
ターゲットエンティティを、Wikidataの同じセマンティッククラスの他のエンティティに置き換える。
文脈レベルでは、事前訓練された言語モデルを用いて単語置換を生成する。
論文 参考訳(メタデータ) (2021-09-12T21:30:21Z) - Estimating the Robustness of Classification Models by the Structure of
the Learned Feature-Space [10.418647759223964]
固定テストセットは、可能なデータバリエーションのごく一部しかキャプチャできないため、制限され、新しい過度なソリューションを生成する傾向にある、と私たちは主張する。
これらの欠点を克服するために、学習した特徴空間の構造から直接モデルのロバスト性を推定することを提案する。
論文 参考訳(メタデータ) (2021-06-23T10:52:29Z) - Conterfactual Generative Zero-Shot Semantic Segmentation [16.684570608930983]
一般的なゼロショットセマンティックセグメンテーション手法の1つは、生成モデルに基づいている。
本研究では,オリジナルのモデルにおいて,共同創設者を避けるための反事実的手法を検討する。
我々のモデルは、2つの実世界のデータセットのベースラインモデルと比較される。
論文 参考訳(メタデータ) (2021-06-11T13:01:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。