論文の概要: "This is my unicorn, Fluffy": Personalizing frozen vision-language
representations
- arxiv url: http://arxiv.org/abs/2204.01694v1
- Date: Mon, 4 Apr 2022 17:58:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-05 14:17:30.518822
- Title: "This is my unicorn, Fluffy": Personalizing frozen vision-language
representations
- Title(参考訳): 「これは私のユニコーン、フラフィー」:凍結した視覚言語表現のパーソナライズ
- Authors: Niv Cohen, Rinon Gal, Eli A. Meirom, Gal Chechik, Yuval Atzmon
- Abstract要約: パーソナライズドビジョン・アンド・ランゲージ(PerVL)と呼ばれる新しい学習環境を導入する。
PerVLでは、ダウンストリームタスクとは独立してパーソナライズされた概念を学ぶ必要がある。
本稿では,いくつかの例からパーソナライズされた視覚概念を学習し,画像検索やセマンティックセグメンテーションに効果的に適用できることを実証する。
- 参考スコア(独自算出の注目度): 31.618829097336047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision & Language models pretrained on web-scale data provide
representations that are invaluable for numerous V&L problems. However, it is
unclear how they can be used for reasoning about user-specific visual concepts
in unstructured language. This problem arises in multiple domains, from
personalized image retrieval to personalized interaction with smart devices. We
introduce a new learning setup called Personalized Vision & Language (PerVL)
with two new benchmark datasets for retrieving and segmenting user-specific
"personalized" concepts "in the wild". In PerVL, one should learn personalized
concepts (1) independently of the downstream task (2) allowing a pretrained
model to reason about them with free language, and (3) does not require
personalized negative examples. We propose an architecture for solving PerVL
that operates by extending the input vocabulary of a pretrained model with new
word embeddings for the new personalized concepts. The model can then reason
about them by simply using them in a sentence. We demonstrate that our approach
learns personalized visual concepts from a few examples and can effectively
apply them in image retrieval and semantic segmentation using rich textual
queries.
- Abstract(参考訳): Webスケールのデータに事前訓練された大規模ビジョン&言語モデルは、多くのV&L問題に対して貴重な表現を提供する。
しかし,非構造化言語におけるユーザ固有の視覚概念の推論にどのように使用できるのかは不明である。
この問題は、パーソナライズされた画像検索からスマートデバイスとのパーソナライズされたインタラクションに至るまで、複数のドメインで発生する。
我々は、パーソナライズドビジョン&ランゲージ(PerVL)と呼ばれる新しい学習設定を導入し、ユーザー固有の「個人化された」概念を"野生"で検索し、セグメンテーションするためのベンチマークデータセットを2つ導入した。
PerVLでは、(1)ダウンストリームタスクから独立してパーソナライズされた概念を学習し、(2)事前訓練されたモデルが自由言語でそれらを推論できるようにし、(3)パーソナライズされたネガティブな例を必要としない。
新しいパーソナライズされた概念に新しい単語を埋め込んだ事前学習されたモデルの入力語彙を拡張して機能するPerVLのアーキテクチャを提案する。
するとモデルは、それらを文で単純に使うことによって、それらを推論できる。
本稿では,いくつかの例からパーソナライズされた視覚概念を学習し,リッチテキストクエリを用いた画像検索とセマンティックセグメンテーションに効果的に適用できることを実証する。
関連論文リスト
- MyVLM: Personalizing VLMs for User-Specific Queries [78.33252556805931]
視覚言語モデルのパーソナライズに向けての第一歩を踏み出し,ユーザが提供する概念を学習し,推論することを可能にする。
様々なユーザ固有の概念を効果的に認識するために,モデルのトグルとして機能する外部概念ヘッドを付加する。
この概念を認識して、VLMの中間機能空間に埋め込まれた新しい概念を学習する。
この埋め込みは、言語モデルを誘導し、ターゲットの概念を生成された応答に自然に統合する。
論文 参考訳(メタデータ) (2024-03-21T17:51:01Z) - User-Aware Prefix-Tuning is a Good Learner for Personalized Image Captioning [35.211749514733846]
従来の画像キャプション方式は、ユーザの好みや特徴を無視することが多い。
既存のほとんどの手法は、メモリネットワークやトランスフォーマーによるユーザコンテキストの融合プロセスを強調している。
本稿では,ユーザコンテキストを利用したパーソナライズされた画像キャプションフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-08T02:08:00Z) - Designing an Encoder for Fast Personalization of Text-to-Image Models [57.62449900121022]
テキスト・ツー・イメージ・パーソナライズのためのエンコーダに基づくドメインチューニング手法を提案する。
まず、特定のドメインからターゲット概念の1つのイメージを入力として取り込むエンコーダです。
第二に、追加概念を効果的に取り入れる方法を学ぶためのテキスト・ツー・イメージ・モデルのための正規化された重み付けオフセットのセット。
論文 参考訳(メタデータ) (2023-02-23T18:46:41Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - Unifying Vision-Language Representation Space with Single-tower
Transformer [29.604520441315135]
両モダリティを同時にモダリティに依存しない方法で符号化する統一視覚言語表現空間を学習するためにモデルを訓練する。
我々は、モダリティ固有の表現空間を学習する以前の作品とOneRを区別する興味深い性質を発見する。
論文 参考訳(メタデータ) (2022-11-21T02:34:21Z) - Pix2Struct: Screenshot Parsing as Pretraining for Visual Language
Understanding [58.70423899829642]
Pix2Structは、純粋に視覚的な言語理解のための事前訓練された画像-テキストモデルである。
4つの領域にまたがる9つのタスクのうち6つのタスクにおいて、1つの事前訓練されたモデルが最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-10-07T06:42:06Z) - Explainable Semantic Space by Grounding Language to Vision with
Cross-Modal Contrastive Learning [3.441021278275805]
視覚における言語学習の基盤となる2ストリームモデルを設計する。
このモデルはまず、視覚的表現と言語表現をMS COCOデータセットに合わせることを学習する。
トレーニング後、このモデルの言語ストリームは、視覚的に接地されたセマンティック空間に概念を埋め込むことができるスタンドアロン言語モデルである。
論文 参考訳(メタデータ) (2021-11-13T19:54:15Z) - Rich Semantics Improve Few-shot Learning [49.11659525563236]
アノテーションコストを最小限に抑えながら取得できる「クラスレベル」言語記述を用いることで、少ない学習性能を向上できることを示す。
我々は,視覚トークンと意味トークンを関連付けるための前方および後方エンコーディング機構を開発した。
論文 参考訳(メタデータ) (2021-04-26T16:48:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。