論文の概要: Evaluating CLIP: Towards Characterization of Broader Capabilities and
Downstream Implications
- arxiv url: http://arxiv.org/abs/2108.02818v1
- Date: Thu, 5 Aug 2021 19:05:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-10 02:22:12.128472
- Title: Evaluating CLIP: Towards Characterization of Broader Capabilities and
Downstream Implications
- Title(参考訳): CLIPの評価: ブロードキャパシティと下流含意の評価に向けて
- Authors: Sandhini Agarwal, Gretchen Krueger, Jack Clark, Alec Radford, Jong
Wook Kim, Miles Brundage
- Abstract要約: 私たちはCLIPを分析し、そのようなモデルがもたらす課題をいくつか強調します。
CLIPは、従来のコンピュータビジョンシステムに見られるバイアスを継承できる。
これらの結果は、成長する仕事の体に「ベター」モデルの概念を変えることを要求する証拠となる。
- 参考スコア(独自算出の注目度): 8.15254368157658
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, there have been breakthroughs in computer vision ("CV") models that
are more generalizable with the advent of models such as CLIP and ALIGN. In
this paper, we analyze CLIP and highlight some of the challenges such models
pose. CLIP reduces the need for task specific training data, potentially
opening up many niche tasks to automation. CLIP also allows its users to
flexibly specify image classification classes in natural language, which we
find can shift how biases manifest. Additionally, through some preliminary
probes we find that CLIP can inherit biases found in prior computer vision
systems. Given the wide and unpredictable domain of uses for such models, this
raises questions regarding what sufficiently safe behaviour for such systems
may look like. These results add evidence to the growing body of work calling
for a change in the notion of a 'better' model--to move beyond simply looking
at higher accuracy at task-oriented capability evaluations, and towards a
broader 'better' that takes into account deployment-critical features such as
different use contexts, and people who interact with the model when thinking
about model deployment.
- Abstract(参考訳): 近年では、クリップやアライメントなどのモデルの出現によってより一般化したコンピュータビジョン(cv)モデルのブレークスルーが起きている。
本稿では、CLIPを分析し、そのようなモデルがもたらす課題をいくつか取り上げる。
CLIPはタスク固有のトレーニングデータの必要性を減らし、多くのニッチなタスクを自動化に開放する可能性がある。
clipは、ユーザーが自然言語で画像分類クラスを柔軟に指定することもできます。
さらに、いくつかの予備的な調査により、CLIPは以前のコンピュータビジョンシステムに見られるバイアスを継承できることがわかった。
このようなモデルに対する広範かつ予測不可能な使用領域を考えると、このようなシステムにとって十分に安全な振る舞いがどのようなものかという疑問が提起される。
これらの結果は、単にタスク指向の能力評価の精度を高めることだけでなく、さまざまなユースケースコンテキストのようなデプロイメントクリティカルな特徴を考慮に入れたより広範な"ベタ"や、モデルデプロイメントについて考えるときにモデルと対話する人々への、"ベタ"モデルの概念の変更を求める成長する作業組織に証拠を与えます。
関連論文リスト
- Calibrating Multi-modal Representations: A Pursuit of Group Robustness
without Annotations [20.981354848227912]
CLIPのような微調整済みの視覚言語モデルは、さまざまな下流タスクで成功している。
これらの調整されたモデルは高度に専門化され、実際の展開の実用性が制限される傾向にある。
微調整CLIPのための軽量表現校正法を提案する。
論文 参考訳(メタデータ) (2024-03-12T01:47:17Z) - CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。
モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。
この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文 参考訳(メタデータ) (2023-10-21T20:20:13Z) - Incremental Object Detection with CLIP [39.85017351940035]
インクリメンタルな検出タスクでは、インクリメンタルな分類タスクとは異なり、ラベル付きバウンディングボックスが異なるため、データのあいまいさが存在する。
本稿では,CLIPなどの言語視覚モデルを用いて,異なるクラスセットに対するテキスト特徴埋め込みを生成することを提案する。
次に、学習段階の未使用の新規クラスを置き換えるために、幅広いクラスを使用し、実際の段階的なシナリオをシミュレートします。
論文 参考訳(メタデータ) (2023-10-13T01:59:39Z) - Continual Learners are Incremental Model Generalizers [70.34479702177988]
本稿では,継続学習モデル(CL)が事前学習者に与える影響を幅広く研究する。
その結果, 微調整性能が著しく低下することなく, 表現の伝達品質が徐々に向上することがわかった。
本稿では,下流タスクの解法において,リッチなタスクジェネリック表現を保存できる新しい微調整方式GLobal Attention Discretization(GLAD)を提案する。
論文 参考訳(メタデータ) (2023-06-21T05:26:28Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - Self-Supervised Models are Continual Learners [79.70541692930108]
本研究では, 自己教師付き損失関数を連続学習のための蒸留機構にシームレスに変換可能であることを示す。
我々は,学習した表現の質を大幅に向上させる連続的自己教師型視覚表現学習の枠組みを考案した。
論文 参考訳(メタデータ) (2021-12-08T10:39:13Z) - Towards Explainable Exploratory Landscape Analysis: Extreme Feature
Selection for Classifying BBOB Functions [4.932130498861987]
驚くほど少数の機能(多くの場合4つ未満)が、98%の精度を達成するのに十分であることを示している。
分類精度は、いくつかのインスタンスがトレーニングやテストに関わっている設定に変換されることを示す。
論文 参考訳(メタデータ) (2021-02-01T10:04:28Z) - Plausible Counterfactuals: Auditing Deep Learning Classifiers with
Realistic Adversarial Examples [84.8370546614042]
ディープラーニングモデルのブラックボックスの性質は、彼らがデータから何を学ぶかについて、未回答の疑問を提起している。
GAN(Generative Adversarial Network)とマルチオブジェクトは、監査されたモデルに妥当な攻撃を与えるために使用される。
その実用性は人間の顔の分類タスクの中で示され、提案されたフレームワークの潜在的可能性を明らかにしている。
論文 参考訳(メタデータ) (2020-03-25T11:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。