Fugu-MT 論文翻訳(概要): Evaluating CLIP: Towards Characterization of Broader Capabilities and Downstream Implications

論文の概要: Evaluating CLIP: Towards Characterization of Broader Capabilities and Downstream Implications

arxiv url: http://arxiv.org/abs/2108.02818v1
Date: Thu, 5 Aug 2021 19:05:57 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-10 02:22:12.128472
Title: Evaluating CLIP: Towards Characterization of Broader Capabilities and Downstream Implications
Title（参考訳）: CLIPの評価: ブロードキャパシティと下流含意の評価に向けて
Authors: Sandhini Agarwal, Gretchen Krueger, Jack Clark, Alec Radford, Jong Wook Kim, Miles Brundage
Abstract要約: 私たちはCLIPを分析し、そのようなモデルがもたらす課題をいくつか強調します。 CLIPは、従来のコンピュータビジョンシステムに見られるバイアスを継承できる。これらの結果は、成長する仕事の体に「ベター」モデルの概念を変えることを要求する証拠となる。
参考スコア（独自算出の注目度）: 8.15254368157658
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, there have been breakthroughs in computer vision ("CV") models that are more generalizable with the advent of models such as CLIP and ALIGN. In this paper, we analyze CLIP and highlight some of the challenges such models pose. CLIP reduces the need for task specific training data, potentially opening up many niche tasks to automation. CLIP also allows its users to flexibly specify image classification classes in natural language, which we find can shift how biases manifest. Additionally, through some preliminary probes we find that CLIP can inherit biases found in prior computer vision systems. Given the wide and unpredictable domain of uses for such models, this raises questions regarding what sufficiently safe behaviour for such systems may look like. These results add evidence to the growing body of work calling for a change in the notion of a 'better' model--to move beyond simply looking at higher accuracy at task-oriented capability evaluations, and towards a broader 'better' that takes into account deployment-critical features such as different use contexts, and people who interact with the model when thinking about model deployment.
Abstract（参考訳）: 近年では、クリップやアライメントなどのモデルの出現によってより一般化したコンピュータビジョン(cv)モデルのブレークスルーが起きている。本稿では、CLIPを分析し、そのようなモデルがもたらす課題をいくつか取り上げる。 CLIPはタスク固有のトレーニングデータの必要性を減らし、多くのニッチなタスクを自動化に開放する可能性がある。 clipは、ユーザーが自然言語で画像分類クラスを柔軟に指定することもできます。さらに、いくつかの予備的な調査により、CLIPは以前のコンピュータビジョンシステムに見られるバイアスを継承できることがわかった。このようなモデルに対する広範かつ予測不可能な使用領域を考えると、このようなシステムにとって十分に安全な振る舞いがどのようなものかという疑問が提起される。これらの結果は、単にタスク指向の能力評価の精度を高めることだけでなく、さまざまなユースケースコンテキストのようなデプロイメントクリティカルな特徴を考慮に入れたより広範な"ベタ"や、モデルデプロイメントについて考えるときにモデルと対話する人々への、"ベタ"モデルの概念の変更を求める成長する作業組織に証拠を与えます。

関連論文リスト

CLIP with Generative Latent Replay: a Strong Baseline for Incremental Learning [17.614980614656407]
インクリメンタル・プロンプト学習のための連続的生成学習を提案する。変分オートエンコーダを用いてクラス条件分布を学習する。このような生成的リプレイアプローチは、ゼロショット機能を改善しつつ、新しいタスクに適応できることを示す。
論文参考訳（メタデータ） (2024-07-22T16:51:28Z)
SOWA: Adapting Hierarchical Frozen Window Self-Attention to Visual-Language Models for Better Anomaly Detection [0.6906005491572401]
CLIPモデルに基づく新しいウィンドウ自己認識機構を導入し、学習可能なプロンプトを付加してマルチレベル機能を処理する。提案手法は5つのベンチマークデータセットで厳格に評価され,20項目中18項目をリードすることで,優れた性能を実現している。
論文参考訳（メタデータ） (2024-07-04T04:54:03Z)
Multimodal CLIP Inference for Meta-Few-Shot Image Classification [0.0]
CLIPのようなマルチモーダル基盤モデルは、ジョイント(イメージ、テキスト)埋め込みを学ぶ。本研究では、CLIPのテキストと画像エンコーダのモダリティを組み合わせることで、広く採用されているベンチマークにおいて、最先端のメタファ学習者より優れていることを示す。
論文参考訳（メタデータ） (2024-03-26T17:47:54Z)
Calibrating Multi-modal Representations: A Pursuit of Group Robustness without Annotations [19.800907485589402]
CLIPのような微調整済みの視覚言語モデルは、さまざまな下流タスクで成功している。これらの調整されたモデルは高度に専門化され、実際の展開の実用性が制限される傾向にある。微調整CLIPのための軽量表現校正法を提案する。
論文参考訳（メタデータ） (2024-03-12T01:47:17Z)
CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文参考訳（メタデータ） (2023-10-21T20:20:13Z)
Incremental Object Detection with CLIP [36.478530086163744]
そこで本研究では,CLIPなどの視覚言語モデルを用いて,異なるクラス集合に対するテキスト特徴埋め込みを生成する。次に、段階的なシナリオをシミュレートするために、早期の学習段階において利用できない新しいクラスを置き換えるために、スーパークラスを使用します。そこで我々は,この微妙に認識された検出ボックスを擬似アノテーションとしてトレーニングプロセスに組み込むことにより,検出性能をさらに向上させる。
論文参考訳（メタデータ） (2023-10-13T01:59:39Z)
Continual Learners are Incremental Model Generalizers [70.34479702177988]
本稿では,継続学習モデル(CL)が事前学習者に与える影響を幅広く研究する。その結果, 微調整性能が著しく低下することなく, 表現の伝達品質が徐々に向上することがわかった。本稿では,下流タスクの解法において,リッチなタスクジェネリック表現を保存できる新しい微調整方式GLobal Attention Discretization(GLAD)を提案する。
論文参考訳（メタデータ） (2023-06-21T05:26:28Z)
Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文参考訳（メタデータ） (2023-06-12T15:52:02Z)
CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文参考訳（メタデータ） (2023-02-02T04:27:54Z)
Self-Supervised Models are Continual Learners [79.70541692930108]
本研究では, 自己教師付き損失関数を連続学習のための蒸留機構にシームレスに変換可能であることを示す。我々は,学習した表現の質を大幅に向上させる連続的自己教師型視覚表現学習の枠組みを考案した。
論文参考訳（メタデータ） (2021-12-08T10:39:13Z)
Plausible Counterfactuals: Auditing Deep Learning Classifiers with Realistic Adversarial Examples [84.8370546614042]
ディープラーニングモデルのブラックボックスの性質は、彼らがデータから何を学ぶかについて、未回答の疑問を提起している。 GAN(Generative Adversarial Network)とマルチオブジェクトは、監査されたモデルに妥当な攻撃を与えるために使用される。その実用性は人間の顔の分類タスクの中で示され、提案されたフレームワークの潜在的可能性を明らかにしている。
論文参考訳（メタデータ） (2020-03-25T11:08:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。