論文の概要: Parts of Speech-Grounded Subspaces in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2305.14053v1
- Date: Tue, 23 May 2023 13:32:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 16:10:50.283533
- Title: Parts of Speech-Grounded Subspaces in Vision-Language Models
- Title(参考訳): 視覚言語モデルにおける音声接地部分空間の部分
- Authors: James Oldfield, Christos Tzelepis, Yannis Panagakis, Mihalis A.
Nicolaou, Ioannis Patras
- Abstract要約: 本稿では,CLIPの視覚-言語空間における異なる視覚的モダリティの表現を分離することを提案する。
音声の特定の部分に対応する変動を捉える部分空間を学習し、他の部分への変動を最小化する。
提案手法は,視覚的外観に対応するサブ空間の学習を容易にする。
- 参考スコア(独自算出の注目度): 34.145110544546114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Latent image representations arising from vision-language models have proved
immensely useful for a variety of downstream tasks. However, their utility is
limited by their entanglement with respect to different visual attributes. For
instance, recent work has shown that CLIP image representations are often
biased toward specific visual properties (such as objects or actions) in an
unpredictable manner. In this paper, we propose to separate representations of
the different visual modalities in CLIP's joint vision-language space by
leveraging the association between parts of speech and specific visual modes of
variation (e.g. nouns relate to objects, adjectives describe appearance). This
is achieved by formulating an appropriate component analysis model that learns
subspaces capturing variability corresponding to a specific part of speech,
while jointly minimising variability to the rest. Such a subspace yields
disentangled representations of the different visual properties of an image or
text in closed form while respecting the underlying geometry of the manifold on
which the representations lie. What's more, we show the proposed model
additionally facilitates learning subspaces corresponding to specific visual
appearances (e.g. artists' painting styles), which enables the selective
removal of entire visual themes from CLIP-based text-to-image synthesis. We
validate the model both qualitatively, by visualising the subspace projections
with a text-to-image model and by preventing the imitation of artists' styles,
and quantitatively, through class invariance metrics and improvements to
baseline zero-shot classification. Our code is available at:
https://github.com/james-oldfield/PoS-subspaces.
- Abstract(参考訳): 視覚言語モデルから生じる潜在画像表現は、様々な下流タスクに非常に有用であることが証明された。
しかし、その実用性は、異なる視覚特性に対する絡み合いによって制限される。
例えば、最近の研究によると、CLIPの画像表現は予測不可能な方法で(オブジェクトやアクションなど)特定の視覚特性に偏っていることが多い。
本稿では,CLIPの関節視覚言語空間における異なる視覚的モダリティの表現を,音声の一部と特定の視覚的モードの関連性を利用して分離する(例えば,名詞は対象に関連し,形容詞は外観を記述する)。
これは、音声の特定の部分に対応する変動を捉えた部分空間を学習する適切な成分分析モデルを定式化し、残りの部分への変動を最小化する。
そのような部分空間は、表現が横たわる多様体の基底幾何学を尊重しながら、画像やテキストの異なる視覚的性質の閉形式の非交叉表現を与える。
さらに,提案モデルにより,特定の視覚的外観(例えばアーティストの絵画スタイル)に対応するサブスペースの学習が促進され,CLIPベースのテキスト・ツー・イメージ合成から視覚的テーマ全体を選択的に除去できることを示す。
サブスペースの投影をテキストから画像へのモデルで可視化し,アーティストのスタイルを模倣することを防止し,クラス非分散メトリクスとベースラインゼロショット分類の改善を通じて定量的にモデルを検証する。
私たちのコードは、https://github.com/james-oldfield/PoS-subspacesで利用可能です。
関連論文リスト
- U-VAP: User-specified Visual Appearance Personalization via Decoupled Self Augmentation [18.841473623776153]
最先端のパーソナライズモデルでは、被写体全体をオーバーフィットさせる傾向があり、画素空間における視覚的特徴を乱すことはできない。
ユーザ固有の視覚属性を学習するために,ターゲット関連および非ターゲットサンプルを生成するために,新たなデカップリング自己拡張戦略を提案する。
SOTAパーソナライズ手法による様々な視覚特性の実験は、新規な文脈における対象の視覚的外観を模倣する手法の能力を示している。
論文 参考訳(メタデータ) (2024-03-29T15:20:34Z) - Interpreting CLIP's Image Representation via Text-Based Decomposition [73.54377859089801]
CLIP画像エンコーダは,個々のモデルコンポーネントが最終表現にどう影響するかを解析することによって検討する。
画像表現は、個々の画像パッチ、モデル層、アテンションヘッドにまたがる和として分解する。
この理解を利用して、CLIPからスプリケートな機能を取り除き、強力なゼロショットイメージセグメンタを作成します。
論文 参考訳(メタデータ) (2023-10-09T17:59:04Z) - Leverage Points in Modality Shifts: Comparing Language-only and
Multimodal Word Representations [0.8594140167290097]
マルチモーダル埋め込みは、テキストのみのモデルと比較して、言語の神経表現における意味情報を豊かにすることを目的としている。
本稿では,3つの視覚・言語モデルと3つのテキストのみモデルからの単語埋め込みと,静的・文脈的表現との比較を行った。
これは、46のセマンティックパラメータを含む言語表現に対する視覚的接地の効果に関する最初の大規模研究である。
論文 参考訳(メタデータ) (2023-06-04T12:53:12Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning [113.50220968583353]
ゼロショット学習のための識別的視覚特性を含むセマンティック埋め込みを発見することを提案する。
本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に視覚的に分割する。
視覚的に接地されたセマンティック埋め込みは、様々なZSLモデルにまたがる単語埋め込みよりも、大きなマージンで性能を向上することを示した。
論文 参考訳(メタデータ) (2022-03-20T03:49:02Z) - Detection and Captioning with Unseen Object Classes [12.894104422808242]
テストイメージには、対応する視覚的またはテキスト的トレーニング例のない視覚的オブジェクトを含むことができる。
一般化されたゼロショット検出モデルとテンプレートに基づく文生成モデルに基づく検出駆動型アプローチを提案する。
実験の結果,提案したゼロショット検出モデルにより,MS-COCOデータセット上での最先端性能が得られた。
論文 参考訳(メタデータ) (2021-08-13T10:43:20Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - Semantic Disentangling Generalized Zero-Shot Learning [50.259058462272435]
Generalized Zero-Shot Learning (GZSL)は、目に見えないカテゴリと見えないカテゴリの両方から画像を認識することを目的としている。
本稿では,エンコーダ・デコーダアーキテクチャに基づく新しい特徴分割手法を提案する。
提案モデルは,視像の固有特徴をキャプチャする品質意味一貫性表現を蒸留することを目的としている。
論文 参考訳(メタデータ) (2021-01-20T05:46:21Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。