論文の概要: Understanding Visual Concepts Across Models
- arxiv url: http://arxiv.org/abs/2406.07506v1
- Date: Tue, 11 Jun 2024 17:40:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 14:36:00.954238
- Title: Understanding Visual Concepts Across Models
- Title(参考訳): モデル全体の視覚概念を理解する
- Authors: Brandon Trabucco, Max Gurinas, Kyle Doherty, Ruslan Salakhutdinov,
- Abstract要約: テキスト・ツー・イメージ生成、オープン・セット・オブジェクト検出、ゼロショット分類において、3つの最先端モデルの大規模解析を行う。
任意の概念を生成し、検出し、分類する事前埋め込みに対して、$epsilon$-ball内で摂動を見つける。
これらの新しい埋め込みが新しいモデルにスプリケートされると、元のモデルをターゲットにした微調整が失われる。
- 参考スコア(独自算出の注目度): 45.18188726287581
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large multimodal models such as Stable Diffusion can generate, detect, and classify new visual concepts after fine-tuning just a single word embedding. Do models learn similar words for the same concepts (i.e. <orange-cat> = orange + cat)? We conduct a large-scale analysis on three state-of-the-art models in text-to-image generation, open-set object detection, and zero-shot classification, and find that new word embeddings are model-specific and non-transferable. Across 4,800 new embeddings trained for 40 diverse visual concepts on four standard datasets, we find perturbations within an $\epsilon$-ball to any prior embedding that generate, detect, and classify an arbitrary concept. When these new embeddings are spliced into new models, fine-tuning that targets the original model is lost. We show popular soft prompt-tuning approaches find these perturbative solutions when applied to visual concept learning tasks, and embeddings for visual concepts are not transferable. Code for reproducing our work is available at: https://visual-words.github.io.
- Abstract(参考訳): 安定拡散のような大規模なマルチモーダルモデルは、単一の単語の埋め込みだけを微調整した後、新しい視覚概念を生成、検出、分類することができる。
モデルは同じ概念(すなわち <orange-cat> = orange + cat)で類似の単語を学習するだろうか?
我々は,テキスト・ツー・イメージ生成,オープンセットオブジェクト検出,ゼロショット分類において,3つの最先端モデルに対して大規模に解析を行い,新しい単語の埋め込みがモデル固有であり,変換不能であることを見出した。
4つの標準データセット上で40の多様な視覚概念のためにトレーニングされた4800の新しい埋め込みは、任意の概念を生成し、検出し、分類する以前の埋め込みに対して、$\epsilon$-ball内で摂動を見つけます。
これらの新しい埋め込みが新しいモデルにスプリケートされると、元のモデルをターゲットにした微調整が失われる。
視覚概念学習タスクに適用した場合に,これらの摂動的解を求めるソフトプロンプトチューニング手法が一般的であり,視覚概念の埋め込みは伝達不可能であることを示す。
私たちの作業を再現するためのコードは、https://visual-words.github.io.comで公開されている。
関連論文リスト
- Modeling Collaborator: Enabling Subjective Vision Classification With Minimal Human Effort via LLM Tool-Use [14.2527771630478]
本稿では,人間のラベリングを自然言語操作に置き換えることで,手作業の軽減を図る新しいフレームワークを提案する。
当社のフレームワークは,クラウドソースアノテーションの必要性を排除している。
トレーニングされたモデルは、従来のアジャイルモデリングや最先端のゼロショット分類モデルよりも優れています。
論文 参考訳(メタデータ) (2024-03-05T03:34:11Z) - Context-Aware Meta-Learning [52.09326317432577]
本研究では,大規模言語モデルのエミュレートを行うメタ学習アルゴリズムを提案する。
我々のアプローチは、11のメタラーニングベンチマークのうち8つで最先端のアルゴリズムであるP>M>Fを上回り、一致します。
論文 参考訳(メタデータ) (2023-10-17T03:35:27Z) - Multi-Concept Customization of Text-to-Image Diffusion [51.8642043743222]
既存のテキスト・ツー・イメージ・モデルの効率的な拡張法であるCustom Diffusionを提案する。
テキスト・ツー・イメージ・コンディショニング機構におけるパラメータの最適化は,新しい概念を表現するのに十分強力であることがわかった。
本モデルは,複数の新しい概念のバリエーションを生成し,既存の概念を新しい設定でシームレスに構成する。
論文 参考訳(メタデータ) (2022-12-08T18:57:02Z) - Inter-model Interpretability: Self-supervised Models as a Case Study [0.2578242050187029]
テキスト・インター・モデル・インタプリタビリティを導入するためのDissectと呼ばれる最近の解釈可能性技術を構築した。
我々は、学習概念の観点から、モデル間の近さを明らかにする学習概念埋め込み空間に、トップパフォーマンスの自己教師型モデル13を投影する。
この実験により、モデルを3つのカテゴリに分類し、異なるタスクが必要とする視覚概念の種類を初めて明らかにしました。
論文 参考訳(メタデータ) (2022-07-24T22:50:18Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z) - Visual Prompting: Modifying Pixel Space to Adapt Pre-trained Models [29.413887954758053]
本稿では,この摂動によって引き起こされる凍結事前学習モデルが新たなタスクを実行するように,タスク固有のイメージ摂動を学習する視覚的プロンプトを導入する。
数ピクセルだけを変えるだけで、新しいタスクやデータセットにモデルを適用することができ、線形探索と同等の性能を発揮することが分かりました。
論文 参考訳(メタデータ) (2022-03-31T17:59:30Z) - VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning [113.50220968583353]
ゼロショット学習のための識別的視覚特性を含むセマンティック埋め込みを発見することを提案する。
本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に視覚的に分割する。
視覚的に接地されたセマンティック埋め込みは、様々なZSLモデルにまたがる単語埋め込みよりも、大きなマージンで性能を向上することを示した。
論文 参考訳(メタデータ) (2022-03-20T03:49:02Z) - Reading Isn't Believing: Adversarial Attacks On Multi-Modal Neurons [0.0]
矛盾するテキストと画像信号は、モデルを混乱させ、誤った(視覚的)オプションを選択することができることを示す。
例として、CLIPモデルが最初に読む傾向があり、後で見て、読み取りが信じていないと記述する現象を示します。
論文 参考訳(メタデータ) (2021-03-18T18:56:51Z) - Synthesizing the Unseen for Zero-shot Object Detection [72.38031440014463]
そこで本研究では,視覚領域における視覚的特徴と視覚的対象の両方を学習するために,視覚的特徴を合成することを提案する。
クラスセマンティックスを用いた新しい生成モデルを用いて特徴を生成するだけでなく,特徴を識別的に分離する。
論文 参考訳(メタデータ) (2020-10-19T12:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。