論文の概要: Text-To-Concept (and Back) via Cross-Model Alignment
- arxiv url: http://arxiv.org/abs/2305.06386v1
- Date: Wed, 10 May 2023 18:01:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 17:05:06.561358
- Title: Text-To-Concept (and Back) via Cross-Model Alignment
- Title(参考訳): クロスモデルアライメントによるテキスト・トゥ・コンセプション(とバック)
- Authors: Mazda Moayeri, Keivan Rezaei, Maziar Sanjabi, Soheil Feizi
- Abstract要約: 一方のモデルにおける画像表現と他方のモデルにおける画像表現とのマッピングは、ただの線形層で驚くほどよく学習できることを示す。
固定オフザシェルフビジョンエンコーダを驚くほど強力なゼロショット分類器に無償で変換する。
概念監督なしで概念ボトルネックモデルを構築するなど、テキスト・トゥ・コンセプトの即時使用例を示す。
- 参考スコア(独自算出の注目度): 48.133333356834186
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We observe that the mapping between an image's representation in one model to
its representation in another can be learned surprisingly well with just a
linear layer, even across diverse models. Building on this observation, we
propose $\textit{text-to-concept}$, where features from a fixed pretrained
model are aligned linearly to the CLIP space, so that text embeddings from
CLIP's text encoder become directly comparable to the aligned features. With
text-to-concept, we convert fixed off-the-shelf vision encoders to surprisingly
strong zero-shot classifiers for free, with accuracy at times even surpassing
that of CLIP, despite being much smaller models and trained on a small fraction
of the data compared to CLIP. We show other immediate use-cases of
text-to-concept, like building concept bottleneck models with no concept
supervision, diagnosing distribution shifts in terms of human concepts, and
retrieving images satisfying a set of text-based constraints. Lastly, we
demonstrate the feasibility of $\textit{concept-to-text}$, where vectors in a
model's feature space are decoded by first aligning to the CLIP before being
fed to a GPT-based generative model. Our work suggests existing deep models,
with presumably diverse architectures and training, represent input samples
relatively similarly, and a two-way communication across model representation
spaces and to humans (through language) is viable.
- Abstract(参考訳): 一方のモデルにおける画像の表現と他方のモデルにおける表現とのマッピングは、多種多様なモデルであっても、ただの線形層で驚くほどよく学習できる。
この観測に基づいて、固定事前訓練されたモデルの機能をCLIP空間に線形に整列させる$\textit{text-to-concept}$を提案し、CLIPのテキストエンコーダからのテキスト埋め込みを、その整列された機能と直接比較する。
テキスト・トゥ・コンセプトでは、固定されたオフ・ザ・シェルフ・ビジョン・エンコーダを驚くほど強力なゼロショット分類器に無償で変換します。
概念のボトルネックモデルの構築,人間の概念による分布変化の診断,テキストに基づく制約を満たす画像の検索など,テキストから概念への直接的な利用例を示す。
最後に、$\textit{concept-to-text}$の実現可能性を示す。ここでは、gptベースの生成モデルに供給される前に、まずクリップにアライメントすることで、モデルの機能空間内のベクトルをデコードする。
我々の研究は、おそらく多様なアーキテクチャとトレーニングを持つ既存の深層モデルが、比較的類似した入力サンプルを表現し、モデル表現空間と人間への(言語を介して)双方向通信が実現可能であることを示唆している。
関連論文リスト
- CLIP for Lightweight Semantic Segmentation [14.039603036741278]
本稿では,言語誘導パラダイムを軽量ネットワークに適用する機能融合モジュールを提案する。
このモジュールはモデルに依存しないため、言語誘導の軽量セマンティックセマンティックセグメンテーションを実践できるだけでなく、事前訓練された言語事前知識を完全に活用することができる。
論文 参考訳(メタデータ) (2023-10-11T11:26:35Z) - With a Little Help from your own Past: Prototypical Memory Networks for
Image Captioning [47.96387857237473]
我々は、他のトレーニングサンプルを処理しながら得られたアクティベーションに注意を向けるネットワークを考案した。
私たちのメモリは、プロトタイプベクトルの定義を通じて過去のキーと値の分布をモデル化します。
本研究では,エンコーダ・デコーダ変換器の性能を3.7 CIDErポイント向上できることを示す。
論文 参考訳(メタデータ) (2023-08-23T18:53:00Z) - CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained
Vision-Language Model [73.33909351531463]
CLIP4STRは,CLIPのイメージエンコーダとテキストエンコーダ上に構築された,シンプルで効果的なSTRメソッドである。
CLIP4STRは11のSTRベンチマークで新しい最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-23T12:51:20Z) - STAIR: Learning Sparse Text and Image Representation in Grounded Tokens [84.14528645941128]
疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。
CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。
CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2023-01-30T17:21:30Z) - Progressive Tree-Structured Prototype Network for End-to-End Image
Captioning [74.8547752611337]
本稿では,新しいプログレッシブツリー構造型プロトタイプネットワーク(PTSN)を提案する。
PTSNは、階層的テキスト意味論をモデル化することによって、適切な意味論で予測語の範囲を狭める最初の試みである。
提案手法は,144.2%(シングルモデル),146.5%(4モデルのアンサンブル),141.4%(c5),143.9%(c40)のCIDErを公式オンラインテストサーバ上でスコアする。
論文 参考訳(メタデータ) (2022-11-17T11:04:00Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。