論文の概要: Robust multimodal models have outlier features and encode more concepts
- arxiv url: http://arxiv.org/abs/2310.13040v1
- Date: Thu, 19 Oct 2023 17:59:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 01:56:06.256850
- Title: Robust multimodal models have outlier features and encode more concepts
- Title(参考訳): ロバストなマルチモーダルモデルは、外れた特徴を持ち、より多くの概念をエンコードする
- Authors: Jonathan Crabb\'e, Pau Rodr\'iguez, Vaishaal Shankar, Luca Zappella,
Arno Blaas
- Abstract要約: 種々のバックボーンと事前学習セットを持つ12個の頑健なマルチモーダルモデルの表現空間を探索する。
これらのモデルの表現空間では、ロバスト性の2つのシグネチャが見つかる。
これらの洞察は、モデルプルーニングや機械論的解釈可能性など、様々な分野における将来の研究の道を開く。
- 参考スコア(独自算出の注目度): 14.555055710021715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: What distinguishes robust models from non-robust ones? This question has
gained traction with the appearance of large-scale multimodal models, such as
CLIP. These models have demonstrated unprecedented robustness with respect to
natural distribution shifts. While it has been shown that such differences in
robustness can be traced back to differences in training data, so far it is not
known what that translates to in terms of what the model has learned. In this
work, we bridge this gap by probing the representation spaces of 12 robust
multimodal models with various backbones (ResNets and ViTs) and pretraining
sets (OpenAI, LAION-400M, LAION-2B, YFCC15M, CC12M and DataComp). We find two
signatures of robustness in the representation spaces of these models: (1)
Robust models exhibit outlier features characterized by their activations, with
some being several orders of magnitude above average. These outlier features
induce privileged directions in the model's representation space. We
demonstrate that these privileged directions explain most of the predictive
power of the model by pruning up to $80 \%$ of the least important
representation space directions without negative impacts on model accuracy and
robustness; (2) Robust models encode substantially more concepts in their
representation space. While this superposition of concepts allows robust models
to store much information, it also results in highly polysemantic features,
which makes their interpretation challenging. We discuss how these insights
pave the way for future research in various fields, such as model pruning and
mechanistic interpretability.
- Abstract(参考訳): 堅牢モデルと非ロバストモデルとの違いは何か?
この問題は、CLIPのような大規模マルチモーダルモデルの出現によって、注目を集めている。
これらのモデルは、自然分布シフトに関して前例のない堅牢性を示している。
このようなロバスト性の違いは、トレーニングデータの違いに遡ることができることが示されているが、モデルが何を学んだかは今のところ分かっていない。
本研究では,12個の頑健なマルチモーダルモデルの表現空間を様々なバックボーン (ResNets と ViTs) と事前学習セット (OpenAI, LAION-400M, LAION-2B, YFCC15M, CC12M, DataComp) で探索することにより,このギャップを埋める。
1)ロバストモデルは、それらのアクティベーションによって特徴づけられる不規則な特徴を示し、いくつかは平均より数桁のオーダーである。
これらの外れた特徴は、モデルの表現空間における特権的方向を誘導する。
2) ロバストモデルは,モデルの精度やロバスト性に悪影響を及ぼすことなく,最重要でない表現空間の方向を最大80 \%$ でプルーピングすることで,モデルの予測力のほとんどを説明できることを実証した。
この概念の重ね合わせは、ロバストなモデルに多くの情報を格納させるが、非常に多意味な特徴をもたらすため、解釈は困難である。
これらの知見が、モデルプルーニングや機械的解釈可能性など、様々な分野における将来の研究の道を開く方法について論じる。
関連論文リスト
- FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - ImageNet-D: Benchmarking Neural Network Robustness on Diffusion Synthetic Object [78.58860252442045]
我々は、深層モデルの堅牢性をベンチマークするハードイメージのためのデータソースとして、生成モデルを紹介した。
このベンチマークを ImageNet-D と呼ぶ以前の作業よりも、背景、テクスチャ、材料が多様化したイメージを生成することができます。
我々の研究は、拡散モデルが視覚モデルをテストするのに効果的な情報源となることを示唆している。
論文 参考訳(メタデータ) (2024-03-27T17:23:39Z) - Raising the Bar of AI-generated Image Detection with CLIP [50.345365081177555]
本研究の目的は、AI生成画像の普遍的検出のための事前学習された視覚言語モデル(VLM)の可能性を探ることである。
我々は,CLIP機能に基づく軽量な検出戦略を開発し,その性能を様々な難易度シナリオで検証する。
論文 参考訳(メタデータ) (2023-11-30T21:11:20Z) - ConvNet vs Transformer, Supervised vs CLIP: Beyond ImageNet Accuracy [27.75360812109922]
本研究では,ImageNetの精度を超えるモデル行動の詳細な比較分析を行う。
選択したモデルには、類似したImageNetの精度と計算要求があるが、他の多くの点で異なることが分かる。
このモデル特性の多様性は、従来のメトリクスによって捉えられず、より微妙な分析の必要性を強調している。
論文 参考訳(メタデータ) (2023-11-15T18:56:51Z) - With a Little Help from your own Past: Prototypical Memory Networks for
Image Captioning [47.96387857237473]
我々は、他のトレーニングサンプルを処理しながら得られたアクティベーションに注意を向けるネットワークを考案した。
私たちのメモリは、プロトタイプベクトルの定義を通じて過去のキーと値の分布をモデル化します。
本研究では,エンコーダ・デコーダ変換器の性能を3.7 CIDErポイント向上できることを示す。
論文 参考訳(メタデータ) (2023-08-23T18:53:00Z) - ImageNet-E: Benchmarking Neural Network Robustness via Attribute Editing [45.14977000707886]
ImageNetにおける高い精度は、通常、異なる汚職に対してより堅牢性をもたらす。
我々は、背景、大きさ、位置、方向の制御によるオブジェクト編集のためのツールキットを作成する。
我々は、畳み込みニューラルネットワークと視覚変換器の両方を含む現在のディープラーニングモデルの性能を評価する。
論文 参考訳(メタデータ) (2023-03-30T02:02:32Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - The Role of ImageNet Classes in Fr\'echet Inception Distance [33.47601032254247]
インセプション距離(Inception Distance, FID)は、画像の2つの分布間の距離を定量化する指標である。
FIDは基本的に、ImageNetクラス確率の集合間の距離である。
以上の結果から, FID改善の過度な解釈に留意し, より知覚的に均一な分布指標の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2022-03-11T15:50:06Z) - Vision Models Are More Robust And Fair When Pretrained On Uncurated
Images Without Supervision [38.22842778742829]
差別的な自己教師型学習は、インターネット画像の任意のランダムなグループでのトレーニングモデルを可能にする。
データ前処理や事前の仮定なしで、何十億ものランダムなイメージでモデルをトレーニングします。
フェアネス、分布シフト、地理的多様性、微粒化認識、画像コピー検出、および多くの画像分類データセットを含む50以上のベンチマークにおいて、我々のモデル性能を広範囲に研究し、検証した。
論文 参考訳(メタデータ) (2022-02-16T22:26:47Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。