論文の概要: Explaining CLIP's performance disparities on data from blind/low vision
users
- arxiv url: http://arxiv.org/abs/2311.17315v1
- Date: Wed, 29 Nov 2023 02:10:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 22:52:35.997406
- Title: Explaining CLIP's performance disparities on data from blind/low vision
users
- Title(参考訳): ブラインド/ロービジョンユーザのデータに対するクリップのパフォーマンス格差の説明
- Authors: Daniela Massiceti, Camilla Longden, Agnieszka Slowik, Samuel Wills,
Martin Grayson, Cecily Morrison
- Abstract要約: 大型マルチモーダルモデル(LMM)は、視覚障害者(BLV)のための視覚支援の新たな時代を後押しする可能性を秘めている
しかし、これらのモデルはBLVユーザーが取得したデータに基づいて体系的に評価されていない。
ゼロショット分類タスクにおいて25のCLIP変種をテストし、その精度がWebcrawled画像よりもBLVユーザが取得した画像の平均15パーセント低いことを確認する。
- 参考スコア(独自算出の注目度): 7.622356036689562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large multi-modal models (LMMs) hold the potential to usher in a new era of
automated visual assistance for people who are blind or low vision (BLV). Yet,
these models have not been systematically evaluated on data captured by BLV
users. We address this by empirically assessing CLIP, a widely-used LMM likely
to underpin many assistive technologies. Testing 25 CLIP variants in a
zero-shot classification task, we find that their accuracy is 15 percentage
points lower on average for images captured by BLV users than web-crawled
images. This disparity stems from CLIP's sensitivities to 1) image content
(e.g. not recognizing disability objects as well as other objects); 2) image
quality (e.g. not being robust to lighting variation); and 3) text content
(e.g. not recognizing objects described by tactile adjectives as well as visual
ones). We delve deeper with a textual analysis of three common pre-training
datasets: LAION-400M, LAION-2B and DataComp-1B, showing that disability content
is rarely mentioned. We then provide three examples that illustrate how the
performance disparities extend to three downstream models underpinned by CLIP:
OWL-ViT, CLIPSeg and DALL-E2. We find that few-shot learning with as few as 5
images can mitigate CLIP's quality-of-service disparities for BLV users in some
scenarios, which we discuss alongside a set of other possible mitigations.
- Abstract(参考訳): 大規模マルチモーダルモデル(lmms)は、視覚障害者や低視力者(blv)のための自動化視覚支援の新たな時代を告げる可能性を秘めている。
しかし、これらのモデルはBLVユーザーが取得したデータに基づいて体系的に評価されていない。
私たちはCLIP(LMM)を実証的に評価することでこの問題に対処する。
ゼロショット分類タスクで25のクリップ変種をテストした結果,blvユーザが撮影した画像の精度は,webクローラした画像よりも平均15ポイント低いことがわかった。
この格差はCLIPの感度から生じる。
1) 画像の内容(例えば、障害対象だけでなく他の対象も認識していないこと)
2)画質(例えば、照明の変動に頑丈でない)、及び
3)テキストの内容(例えば、触覚形容詞や視覚表現によって記述された物体を認識しない)。
我々は、LAION-400M、LAION-2B、DataComp-1Bの3つの一般的な事前学習データセットのテキスト分析を行い、障害内容がほとんど言及されていないことを示す。
次に、clip-vit、clipseg、dall-e2の3つの下流モデルにパフォーマンス格差がどのように拡張されているかを示す3つの例を示す。
5つのイメージしか持たない数ショットの学習は、いくつかのシナリオにおいて、CLIPのBLVユーザに対するサービス品質の格差を軽減することができる。
関連論文リスト
- Diffusion Feedback Helps CLIP See Better [40.125318318373715]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、ドメインとモダリティをまたいだオープンワールド表現の抽象化に優れている。
CLIPには、方向、量、色、構造をほとんど区別できないような、深刻な視覚的欠点がある。
自己教師付き拡散プロセスによって視覚的欠点を克服するCLIPモデルに対する後学習手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T17:00:09Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Raising the Bar of AI-generated Image Detection with CLIP [50.345365081177555]
本研究の目的は、AI生成画像の普遍的検出のための事前学習された視覚言語モデル(VLM)の可能性を探ることである。
我々は,CLIP機能に基づく軽量な検出戦略を開発し,その性能を様々な難易度シナリオで検証する。
論文 参考訳(メタデータ) (2023-11-30T21:11:20Z) - CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。
モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。
この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文 参考訳(メタデータ) (2023-10-21T20:20:13Z) - Teaching CLIP to Count to Ten [18.703050317383322]
大規模視覚言語モデル(VLM)の定量的理解を改善するための,シンプルで効果的な手法を提案する。
そこで本研究では,既存のVLMを本来の目的に合わせて微調整するために,新たな計数コントラスト損失を提案する。
私たちの知る限りでは、この作業はCLIPの機能をオブジェクトカウントに拡張した最初のものです。
論文 参考訳(メタデータ) (2023-02-23T14:43:53Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - Is a Caption Worth a Thousand Images? A Controlled Study for
Representation Learning [88.5382122413913]
本研究では,従来の画像のみの手法よりも伝達可能な表現を持つ視覚モデルが得られるかを検討した。
画像のみの手法は、より多くの画像データでトレーニングされた場合でも、CLIPの転送性能と一致しないことがわかった。
この結果から,CLIPが既存の事前学習データセットに存在する言語情報を活用できるように,シンプルな処方薬を考案した。
論文 参考訳(メタデータ) (2022-07-15T17:50:51Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。