論文の概要: Evaluating language-biased image classification based on semantic
representations
- arxiv url: http://arxiv.org/abs/2201.11014v1
- Date: Wed, 26 Jan 2022 15:46:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-27 16:27:05.048180
- Title: Evaluating language-biased image classification based on semantic
representations
- Title(参考訳): 意味表現に基づく言語バイアス画像分類の評価
- Authors: Yoann Lemesle, Masataka Sawayama, Guillermo Valle-Perez, Maxime
Adolphe, H\'el\`ene Sauz\'eon, Pierre-Yves Oudeyer
- Abstract要約: 人間は、画像-ワード干渉として知られる単語埋め込み画像に対して、言語バイアスの画像認識を示す。
人間と同様、最近の人工モデルはテキストや画像、例えばOpenAI CLIPで共同で訓練されており、言語バイアスの画像分類を示している。
- 参考スコア(独自算出の注目度): 13.508894957080777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans show language-biased image recognition for a word-embedded image,
known as picture-word interference. Such interference depends on hierarchical
semantic categories and reflects that human language processing highly
interacts with visual processing. Similar to humans, recent artificial models
jointly trained on texts and images, e.g., OpenAI CLIP, show language-biased
image classification. Exploring whether the bias leads to interferences similar
to those observed in humans can contribute to understanding how much the model
acquires hierarchical semantic representations from joint learning of language
and vision. The present study introduces methodological tools from the
cognitive science literature to assess the biases of artificial models.
Specifically, we introduce a benchmark task to test whether words superimposed
on images can distort the image classification across different category levels
and, if it can, whether the perturbation is due to the shared semantic
representation between language and vision. Our dataset is a set of
word-embedded images and consists of a mixture of natural image datasets and
hierarchical word labels with superordinate/basic category levels. Using this
benchmark test, we evaluate the CLIP model. We show that presenting words
distorts the image classification by the model across different category
levels, but the effect does not depend on the semantic relationship between
images and embedded words. This suggests that the semantic word representation
in the CLIP visual processing is not shared with the image representation,
although the word representation strongly dominates for word-embedded images.
- Abstract(参考訳): 人間は、単語が埋め込まれた画像に対して言語バイアスの画像認識を示す。
このような干渉は階層的な意味圏に依存し、人間の言語処理が視覚処理と高度に相互作用することを反映している。
人間と同様、最近の人工モデルはテキストや画像、例えばOpenAI CLIPで共同で訓練されており、言語バイアスの画像分類を示している。
バイアスが人間に類似した干渉を引き起こすかどうかを調べることは、モデルが言語と視覚の合同学習から階層的意味表現をどの程度取得するかを理解するのに役立つ。
本研究では, 認知科学文献の方法論ツールを用いて, 人工モデルのバイアスを評価する。
具体的には、画像に重ね合わせられた単語が異なるカテゴリレベルで画像分類を歪めることができるか、あるいはそれが言語と視覚の共有意味表現に起因するかをテストするベンチマークタスクを導入する。
我々のデータセットは、単語埋め込み画像の集合であり、自然な画像データセットと階層的な単語ラベルと、上位/下位のカテゴリレベルからなる。
このベンチマークテストを用いて,CLIPモデルを評価する。
提示語は,異なるカテゴリーレベルでモデルによる画像分類を歪めているが,その効果は画像と埋め込み語の間の意味的関係には依存しない。
このことは、CLIP視覚処理における意味的単語表現が画像表現と共有されていないことを示唆している。
関連論文リスト
- Learning Object Semantic Similarity with Self-Supervision [7.473473243713322]
人間はその意味的関連性に基づいて2つのオブジェクトの類似性を判断する。
オブジェクトとカテゴリ間の意味的関係について、人間がどのように学ぶかは、まだ不明である。
論文 参考訳(メタデータ) (2024-04-19T14:08:17Z) - Vocabulary-free Image Classification and Semantic Segmentation [71.78089106671581]
本稿では,Vocabulary-free Image Classification (VIC)タスクを導入する。これは,制約のない言語による意味空間から,既知の語彙を必要とせずに,入力画像にクラスを割り当てることを目的としている。
VICは、細かなカテゴリを含む数百万の概念を含む意味空間の広さのために、挑戦的である。
本稿では,事前学習された視覚言語モデルと外部データベースを利用した学習自由度手法CaSEDを提案する。
論文 参考訳(メタデータ) (2024-04-16T19:27:21Z) - Towards Image Semantics and Syntax Sequence Learning [8.033697392628424]
画像意味論」と「画像構文」からなる「画像文法」の概念を導入する。
視覚オブジェクト/シーンのクラスに対して画像文法を学習するための弱教師付き2段階アプローチを提案する。
私たちのフレームワークは、パッチセマンティクスを推論し、欠陥のある構文を検出するように訓練されています。
論文 参考訳(メタデータ) (2024-01-31T00:16:02Z) - Vocabulary-free Image Classification [75.38039557783414]
VIC(Vocabulary-free Image Classification)と呼ばれる新しいタスクを定式化する。
VICは、既知の語彙を必要とせずに、制約のない言語によって引き起こされる意味空間に存在するクラスを入力画像に割り当てることを目的としている。
CaSEDは、事前訓練された視覚言語モデルと外部視覚言語データベースを利用して、VICをトレーニング不要に対処する手法である。
論文 参考訳(メタデータ) (2023-06-01T17:19:43Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Zero-Shot Audio Classification using Image Embeddings [16.115449653258356]
非線形音響シーマンティック・プロジェクションを用いてゼロショット音声分類のサイド情報として画像埋め込みを導入する。
画像埋め込みは,ゼロショット音声分類を行うための意味情報として利用できることを示す。
論文 参考訳(メタデータ) (2022-06-10T10:36:56Z) - HIRL: A General Framework for Hierarchical Image Representation Learning [54.12773508883117]
階層型画像表現学習(HIRL)のための一般的なフレームワークを提案する。
このフレームワークは、各画像の複数の意味表現を学習することを目的としており、これらの表現は、細粒度から粗粒度まで画像意味をエンコードするように構成されている。
確率的因子化に基づいて、HIRLはオフザシェルフ画像SSLアプローチにより最もきめ細かいセマンティクスを学習し、新しいセマンティクスパス識別方式により複数の粗いセマンティクスを学習する。
論文 参考訳(メタデータ) (2022-05-26T05:13:26Z) - Building a visual semantics aware object hierarchy [0.0]
視覚的意味論を意識したオブジェクト階層を構築するための新しい教師なし手法を提案する。
この論文の直感は、概念が階層的に組織化されている現実世界の知識表現から来ています。
評価は2つの部分から構成され、まず、構築された階層をオブジェクト認識タスクに適用し、その上で、視覚的階層と既存の語彙階層を比較して、提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-02-26T00:10:21Z) - Consensus Graph Representation Learning for Better Grounded Image
Captioning [48.208119537050166]
本稿では,接地画像キャプションのためのConsensus Rraph Representation Learning framework(CGRL)を提案する。
Flickr30k Entitiesデータセットにおける対象幻覚(-9% CHAIRi)の顕著な減少とともに,本モデルの有効性を検証した。
論文 参考訳(メタデータ) (2021-12-02T04:17:01Z) - Hierarchical Image Classification using Entailment Cone Embeddings [68.82490011036263]
まずラベル階層の知識を任意のCNNベースの分類器に注入する。
画像からの視覚的セマンティクスと組み合わせた外部セマンティクス情報の利用が全体的な性能を高めることを実証的に示す。
論文 参考訳(メタデータ) (2020-04-02T10:22:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。