論文の概要: Intriguing Differences Between Zero-Shot and Systematic Evaluations of
Vision-Language Transformer Models
- arxiv url: http://arxiv.org/abs/2402.08473v1
- Date: Tue, 13 Feb 2024 14:07:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 15:19:22.975523
- Title: Intriguing Differences Between Zero-Shot and Systematic Evaluations of
Vision-Language Transformer Models
- Title(参考訳): ビジョンランゲージ変換器モデルにおけるゼロショットとシステム評価の違い
- Authors: Shaeke Salman, Md Montasir Bin Shams, Xiuwen Liu, Lingjiong Zhu
- Abstract要約: トランスフォーマーベースのモデルは、ベンチマークデータセットにおける優れた(ゼロショット)パフォーマンスのために、ここ数年で自然言語処理やその他の領域を支配してきた。
本稿では,新しい勾配勾配勾配最適化法に基づいて,一般的に使用される視覚言語モデルの埋め込み空間を探索する。
Imagenetteデータセットを用いて、モデルが99%以上のゼロショット分類性能を達成する一方で、体系的な評価を完全に失敗することを示した。
- 参考スコア(独自算出の注目度): 7.360937524701675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based models have dominated natural language processing and other
areas in the last few years due to their superior (zero-shot) performance on
benchmark datasets. However, these models are poorly understood due to their
complexity and size. While probing-based methods are widely used to understand
specific properties, the structures of the representation space are not
systematically characterized; consequently, it is unclear how such models
generalize and overgeneralize to new inputs beyond datasets. In this paper,
based on a new gradient descent optimization method, we are able to explore the
embedding space of a commonly used vision-language model. Using the Imagenette
dataset, we show that while the model achieves over 99\% zero-shot
classification performance, it fails systematic evaluations completely. Using a
linear approximation, we provide a framework to explain the striking
differences. We have also obtained similar results using a different model to
support that our results are applicable to other transformer models with
continuous inputs. We also propose a robust way to detect the modified images.
- Abstract(参考訳): トランスフォーマーベースのモデルは、ベンチマークデータセットでの優れた(ゼロショット)パフォーマンスのために、ここ数年で自然言語処理やその他の領域を支配してきた。
しかし、これらのモデルは複雑さとサイズのためにあまり理解されていない。
探索に基づく手法は特定の性質を理解するために広く用いられているが、表現空間の構造は体系的に特徴づけられておらず、なぜそのようなモデルがデータセット以外の新しい入力に一般化し、過度に一般化するのかは不明である。
本稿では,新しい勾配勾配勾配最適化法に基づいて,一般的に使用される視覚言語モデルの埋め込み空間を探索する。
Imagenetteデータセットを用いて、モデルが99\%以上のゼロショット分類性能を達成する一方で、体系的な評価を完全に失敗することを示した。
線形近似を用いて,目立った違いを説明する枠組みを提案する。
また, 連続入力を持つ他の変圧器モデルに適用可能であることを示すために, 異なるモデルを用いて同様の結果を得た。
また,修正画像を検出するロバストな手法を提案する。
関連論文リスト
- Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - Image Similarity using An Ensemble of Context-Sensitive Models [2.9490616593440317]
ラベル付きデータに基づく画像類似性モデルの構築と比較に,より直感的なアプローチを提案する。
画像空間(R,A,B)におけるスパースサンプリングの課題と,文脈に基づくデータを用いたモデルにおけるバイアスに対処する。
実験の結果,構築したアンサンブルモデルは,最高の文脈依存モデルよりも5%高い性能を示した。
論文 参考訳(メタデータ) (2024-01-15T20:23:05Z) - COSE: A Consistency-Sensitivity Metric for Saliency on Image
Classification [21.3855970055692]
本稿では,画像分類タスクにおいて,視覚の先行値を用いてサリエンシ手法の性能を評価する指標について述べる。
しかし,ほとんどの手法では,畳み込みモデルよりもトランスフォーマーモデルの方がよく説明できる。
論文 参考訳(メタデータ) (2023-09-20T01:06:44Z) - Foundation Model-oriented Robustness: Robust Image Model Evaluation with Pretrained Models [38.16654407693728]
本稿では,サロゲートオラクルと比較して画像分類モデルの性能を直接測定する新しいロバストネス測定手法を提案する。
我々の新しい手法は、固定ベンチマークや制約付き摂動の制限なしに、モデルの堅牢性を評価する新しい方法を提供する。
論文 参考訳(メタデータ) (2023-08-21T11:07:27Z) - Investigating Ensemble Methods for Model Robustness Improvement of Text
Classifiers [66.36045164286854]
既存のバイアス機能を分析し、すべてのケースに最適なモデルが存在しないことを実証します。
適切なバイアスモデルを選択することで、より洗練されたモデル設計でベースラインよりもロバスト性が得られる。
論文 参考訳(メタデータ) (2022-10-28T17:52:10Z) - IMACS: Image Model Attribution Comparison Summaries [16.80986701058596]
我々は,勾配に基づくモデル属性とアグリゲーションと可視化技術を組み合わせたIMACSを提案する。
IMACSは評価データセットから適切な入力特徴を抽出し、類似性に基づいてクラスタ化し、類似した入力特徴に対するモデル属性の違いを可視化する。
本稿では,衛星画像上で訓練した2つのモデル間の領域シフトによる行動差を明らかにする方法を示す。
論文 参考訳(メタデータ) (2022-01-26T21:35:14Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - An application of a pseudo-parabolic modeling to texture image
recognition [0.0]
偏微分方程式モデルを用いたテクスチャ画像認識のための新しい手法を提案する。
擬似パラボリックなBuckley-Leverett方程式を用いて、デジタル画像表現のダイナミクスを提供し、時間とともに進化するそれらの画像から局所的な記述子を収集する。
論文 参考訳(メタデータ) (2021-02-09T18:08:42Z) - Distilling Interpretable Models into Human-Readable Code [71.11328360614479]
人間可読性は機械学習モデル解釈可能性にとって重要で望ましい標準である。
従来の方法を用いて解釈可能なモデルを訓練し,それを簡潔で可読なコードに抽出する。
本稿では,幅広いユースケースで効率的に,確実に高品質な結果を生成する分別線形曲線フィッティングアルゴリズムについて述べる。
論文 参考訳(メタデータ) (2021-01-21T01:46:36Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - Evaluating the Disentanglement of Deep Generative Models through
Manifold Topology [66.06153115971732]
本稿では,生成モデルのみを用いた乱れの定量化手法を提案する。
複数のデータセットにまたがるいくつかの最先端モデルを実証的に評価する。
論文 参考訳(メタデータ) (2020-06-05T20:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。