論文の概要: Color in Visual-Language Models: CLIP deficiencies
- arxiv url: http://arxiv.org/abs/2502.04470v1
- Date: Thu, 06 Feb 2025 19:38:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:58:06.508173
- Title: Color in Visual-Language Models: CLIP deficiencies
- Title(参考訳): 視覚言語モデルにおける色:CLIP欠損
- Authors: Guillem Arias, Ramon Baldrich, Maria Vanrell,
- Abstract要約: この研究は、現在人工知能において最も影響力のあるVML(ビジュアル言語モデル)であるCLIP(Contrastive Language- Image Pre-training)において、色がどのようにコード化されているかを探る。
a)色の概念にあまり関係のない無彩色刺激に対する明確な偏見、(b)他の視覚情報よりもテキストを優先する傾向である。
- 参考スコア(独自算出の注目度): 1.0159205678719043
- License:
- Abstract: This work explores how color is encoded in CLIP (Contrastive Language-Image Pre-training) which is currently the most influential VML (Visual Language model) in Artificial Intelligence. After performing different experiments on synthetic datasets created for this task, we conclude that CLIP is able to attribute correct color labels to colored visual stimulus, but, we come across two main deficiencies: (a) a clear bias on achromatic stimuli that are poorly related to the color concept, thus white, gray and black are rarely assigned as color labels; and (b) the tendency to prioritize text over other visual information. Here we prove it is highly significant in color labelling through an exhaustive Stroop-effect test. With the aim to find the causes of these color deficiencies, we analyse the internal representation at the neuron level. We conclude that CLIP presents an important amount of neurons selective to text, specially in deepest layers of the network, and a smaller amount of multi-modal color neurons which could be the key of understanding the concept of color properly. Our investigation underscores the necessity of refining color representation mechanisms in neural networks to foster a more comprehensive comprehension of colors as humans understand them, thereby advancing the efficacy and versatility of multimodal models like CLIP in real-world scenarios.
- Abstract(参考訳): この研究は、現在人工知能において最も影響力のあるVML(ビジュアル言語モデル)であるCLIP(Contrastive Language- Image Pre-training)において、色がどのようにコード化されているかを探る。
このタスクのために作られた合成データセットの異なる実験を行った結果、CLIPは正しい色ラベルを色刺激に関連付けることができると結論付けました。
(a)無彩色刺激に対する明瞭な偏見で、色概念とあまり関係がないため、白、灰色、黒色はめったに色ラベルに指定されない。
(b)他の視覚情報よりもテキストを優先する傾向。
そこで本研究では,Stroop-effect 試験により,色ラベル化に極めて重要であることを証明した。
これらの色障害の原因を見つけることを目的として、ニューロンレベルでの内部表現を分析する。
CLIPは、特にネットワークの最も深い層において、テキストに選択的に選択された重要な量のニューロンを示し、色の概念を適切に理解する鍵となる、少数のマルチモーダルカラーニューロンを提示する。
我々の研究は、ニューラルネットワークにおける色表現機構の精細化の必要性を強調し、人間が理解している色をより包括的に理解し、現実世界のシナリオにおけるCLIPのようなマルチモーダルモデルの有効性と汎用性を向上させる。
関連論文リスト
- Primary visual cortex contributes to color constancy by predicting rather than discounting the illuminant: evidence from a computational study [15.2781669109191]
我々は、自然画像データセットから光源の色を学習するために、電気生理学的にベースとしたV1ニューラルモデルを構築した。
学習したモデルニューロンの受容野の空間構造と色重は、V1で記録された単純ニューロンとDOニューロンのものと非常によく似ている。
論文 参考訳(メタデータ) (2024-12-10T01:42:49Z) - Divergences in Color Perception between Deep Neural Networks and Humans [3.0315685825606633]
我々はディープニューラルネットワーク(DNN)におけるカラー埋め込みの知覚的コヒーレンスを評価する実験を開発した。
これらのアルゴリズムがオンライン調査によって収集された人間の色類似性判定の精度を評価する。
本研究では,ウェーブレット分解に基づく色知覚モデルとDNN性能を比較した。
論文 参考訳(メタデータ) (2023-09-11T20:26:40Z) - Name Your Colour For the Task: Artificially Discover Colour Naming via
Colour Quantisation Transformer [62.75343115345667]
そこで本研究では,色空間を定量化しつつ,画像上での認識を維持しつつ,色空間を定量化する新しい色量子化変換器CQFormerを提案する。
人工色システムと人間の言語における基本色用語との一貫性のある進化パターンを観察する。
我々のカラー量子化法は、画像記憶を効果的に圧縮する効率的な量子化法も提供する。
論文 参考訳(メタデータ) (2022-12-07T03:39:18Z) - Exploration of the Usage of Color Terms by Color-blind Participants in
Online Discussion Platforms [4.445130093341008]
赤緑色話者は、予測不可能な文脈で「赤」と「緑」の用語を使用することを示す。
これらの発見は、我々の言語システムにおける感覚経験の役割について、新しく興味深い光を当てた。
論文 参考訳(メタデータ) (2022-10-21T12:11:10Z) - Learning to Structure an Image with Few Colors and Beyond [59.34619548026885]
カラー量子化ネットワークであるColorCNNを提案し、分類損失を最小限に抑えて、限られた色空間で画像を構成することを学習する。
複数の色空間サイズ構成をサポートするColorCNN+を導入し、大色空間における認識精度の低下と望ましくない視覚的忠実度に関する過去の問題に対処する。
潜在的な応用として、ネットワーク認識のための画像圧縮手法としてColorCNNが利用可能であることを示す。
論文 参考訳(メタデータ) (2022-08-17T17:59:15Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - Influence of Color Spaces for Deep Learning Image Colorization [2.3705923859070217]
既存のカラー化手法は、RGB、YUV、Labなど、さまざまな色空間に依存している。
本章では,深層ニューラルネットワークのトレーニングによって得られる結果に対する影響について検討する。
RGB,YUV,Labの色空間と同一の深層ニューラルネットワークアーキテクチャを用いて得られた結果を比較した。
論文 参考訳(メタデータ) (2022-04-06T14:14:07Z) - Assessing The Importance Of Colours For CNNs In Object Recognition [70.70151719764021]
畳み込みニューラルネットワーク(CNN)は相反する性質を示すことが示されている。
CNNが予測をしながら色情報に大きく依存していることを実証します。
congruent, greyscale, incongruent画像の合同画像で学習したモデルを評価する。
論文 参考訳(メタデータ) (2020-12-12T22:55:06Z) - Is It a Plausible Colour? UCapsNet for Image Colourisation [38.88087332284959]
グレースケール画像のカラー化のための新しいアーキテクチャを提案する。
アーキテクチャは、敵対的な学習パラダイムに従ってトレーニングされたCapsulesに基づいている。
提案手法により, 出口解よりも鮮やかで, 可視な色が生成できることが示唆された。
論文 参考訳(メタデータ) (2020-12-04T09:07:13Z) - Semantic-driven Colorization [78.88814849391352]
最近の着色は、白黒画像の着色を学習しながら意味情報を暗黙的に予測する。
そこで本研究では,まず,人間の動作をシミュレートして,画像の理解を学習し,色づけする。
論文 参考訳(メタデータ) (2020-06-13T08:13:30Z) - Learning to Structure an Image with Few Colors [59.34619548026885]
そこで,カラー量子化ネットワークであるColorCNNを提案する。
1ビットのカラースペース(すなわち2色)だけで、提案されたネットワークはCIFAR10データセット上で82.1%のトップ-1の精度を達成した。
アプリケーションの場合、PNGでエンコードされた場合、提案したカラー量子化は、極低ビットレート方式の他の画像圧縮方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-17T17:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。