論文の概要: Text-To-Concept (and Back) via Cross-Model Alignment
- arxiv url: http://arxiv.org/abs/2305.06386v1
- Date: Wed, 10 May 2023 18:01:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 17:05:06.561358
- Title: Text-To-Concept (and Back) via Cross-Model Alignment
- Title(参考訳): クロスモデルアライメントによるテキスト・トゥ・コンセプション(とバック)
- Authors: Mazda Moayeri, Keivan Rezaei, Maziar Sanjabi, Soheil Feizi
- Abstract要約: 一方のモデルにおける画像表現と他方のモデルにおける画像表現とのマッピングは、ただの線形層で驚くほどよく学習できることを示す。
固定オフザシェルフビジョンエンコーダを驚くほど強力なゼロショット分類器に無償で変換する。
概念監督なしで概念ボトルネックモデルを構築するなど、テキスト・トゥ・コンセプトの即時使用例を示す。
- 参考スコア(独自算出の注目度): 48.133333356834186
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We observe that the mapping between an image's representation in one model to
its representation in another can be learned surprisingly well with just a
linear layer, even across diverse models. Building on this observation, we
propose $\textit{text-to-concept}$, where features from a fixed pretrained
model are aligned linearly to the CLIP space, so that text embeddings from
CLIP's text encoder become directly comparable to the aligned features. With
text-to-concept, we convert fixed off-the-shelf vision encoders to surprisingly
strong zero-shot classifiers for free, with accuracy at times even surpassing
that of CLIP, despite being much smaller models and trained on a small fraction
of the data compared to CLIP. We show other immediate use-cases of
text-to-concept, like building concept bottleneck models with no concept
supervision, diagnosing distribution shifts in terms of human concepts, and
retrieving images satisfying a set of text-based constraints. Lastly, we
demonstrate the feasibility of $\textit{concept-to-text}$, where vectors in a
model's feature space are decoded by first aligning to the CLIP before being
fed to a GPT-based generative model. Our work suggests existing deep models,
with presumably diverse architectures and training, represent input samples
relatively similarly, and a two-way communication across model representation
spaces and to humans (through language) is viable.
- Abstract(参考訳): 一方のモデルにおける画像の表現と他方のモデルにおける表現とのマッピングは、多種多様なモデルであっても、ただの線形層で驚くほどよく学習できる。
この観測に基づいて、固定事前訓練されたモデルの機能をCLIP空間に線形に整列させる$\textit{text-to-concept}$を提案し、CLIPのテキストエンコーダからのテキスト埋め込みを、その整列された機能と直接比較する。
テキスト・トゥ・コンセプトでは、固定されたオフ・ザ・シェルフ・ビジョン・エンコーダを驚くほど強力なゼロショット分類器に無償で変換します。
概念のボトルネックモデルの構築,人間の概念による分布変化の診断,テキストに基づく制約を満たす画像の検索など,テキストから概念への直接的な利用例を示す。
最後に、$\textit{concept-to-text}$の実現可能性を示す。ここでは、gptベースの生成モデルに供給される前に、まずクリップにアライメントすることで、モデルの機能空間内のベクトルをデコードする。
我々の研究は、おそらく多様なアーキテクチャとトレーニングを持つ既存の深層モデルが、比較的類似した入力サンプルを表現し、モデル表現空間と人間への(言語を介して)双方向通信が実現可能であることを示唆している。
関連論文リスト
- Explain via Any Concept: Concept Bottleneck Model with Open Vocabulary Concepts [8.028021897214238]
OpenCBMはオープン語彙の概念を持つ最初のCBMである。
ベンチマークデータセットCUB-200-2011の分類精度は,従来のCBMよりも9%向上した。
論文 参考訳(メタデータ) (2024-08-05T06:42:00Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Interpreting CLIP: Insights on the Robustness to ImageNet Distribution Shifts [22.74552390076515]
種々のバックボーンと事前学習セットを持つ16の頑健なゼロショットCLIPビジョンエンコーダの表現空間を探索する。
頑健なゼロショットCLIPビジョンエンコーダにおいて、オフリー機能の存在を検知し、これらが非トランスフォーマーモデルで観測されるのはこれが初めてである。
我々は、モデルにおけるImageNetシフトのロバスト性を示すために、外部機能が存在することを発見した。
論文 参考訳(メタデータ) (2023-10-19T17:59:12Z) - CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model [55.321010757641524]
CLIP4STRは,CLIPのイメージエンコーダとテキストエンコーダ上に構築された,シンプルで効果的なSTRメソッドである。
モデルサイズ、事前トレーニングデータ、トレーニングデータの観点からCLIP4STRをスケールし、11のSTRベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-23T12:51:20Z) - STAIR: Learning Sparse Text and Image Representation in Grounded Tokens [84.14528645941128]
疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。
CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。
CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2023-01-30T17:21:30Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。