論文の概要: Self-Supervised Open-Ended Classification with Small Visual Language
Models
- arxiv url: http://arxiv.org/abs/2310.00500v2
- Date: Wed, 6 Dec 2023 13:16:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 18:13:35.924031
- Title: Self-Supervised Open-Ended Classification with Small Visual Language
Models
- Title(参考訳): 小さな視覚言語モデルを用いた自己監督型オープンエンディング分類
- Authors: Mohammad Mahdi Derakhshani, Ivona Najdenkoska, Cees G. M. Snoek,
Marcel Worring, Yuki M. Asano
- Abstract要約: 我々は、小さな視覚言語モデルを用いたオープンエンド分類のための数ショットの能力を解放する自己教師型アプローチであるSeCAtを提案する。
約1Bパラメータを持つモデルを使用することで、FrozenやBrobAGeといった、はるかに大きなモデルの少数ショット能力より優れています。
- 参考スコア(独自算出の注目度): 60.23212389067007
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present Self-Context Adaptation (SeCAt), a self-supervised approach that
unlocks few-shot abilities for open-ended classification with small visual
language models. Our approach imitates image captions in a self-supervised way
based on clustering a large pool of images followed by assigning
semantically-unrelated names to clusters. By doing so, we construct a training
signal consisting of interleaved sequences of image and pseudocaption pairs and
a query image, which we denote as the 'self-context' sequence. Based on this
signal the model is trained to produce the right pseudo-caption. We demonstrate
the performance and flexibility of SeCAt on several multimodal few-shot
datasets, spanning various granularities. By using models with approximately 1B
parameters we outperform the few-shot abilities of much larger models, such as
Frozen and FROMAGe. SeCAt opens new possibilities for research and applications
in open-ended few-shot learning that otherwise requires access to large or
proprietary models.
- Abstract(参考訳): 視覚言語モデルを用いたオープンディビジョン分類において,自己教師付きアプローチであるsecat(self-context adaptation)を提案する。
提案手法は,大量の画像プールをクラスタ化した後,意味的に無関係な名前をクラスタ化することで,イメージキャプションを自己管理的に模倣する。
そこで我々は,画像と疑似カプセル対のインターリーブされたシーケンスと,問合せ画像からなる学習信号を構築し,それを「自己文脈」列と呼ぶ。
この信号に基づいて、モデルは適切な擬似カプセルを生成するように訓練される。
様々な粒度にまたがるマルチモーダルな数ショットデータセット上で,SeCAtの性能と柔軟性を示す。
約1Bパラメータを持つモデルを使用することで、FrozenやBrobAGeといった、はるかに大きなモデルの少数ショット能力より優れています。
SeCAtは、大規模またはプロプライエタリなモデルへのアクセスを必要とする、オープンソースの数ショット学習における研究と応用の新たな可能性を開く。
関連論文リスト
- Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚的単語の概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Diffusion Models Beat GANs on Image Classification [37.70821298392606]
拡散モデルは、画像生成、復調、塗装、超解像、操作などの最先端の手法として注目されている。
本稿では,これらの埋め込みは識別情報を含むため,ノイズ予測タスクを超えて有用であり,分類にも活用できることを示す。
注意深い特徴選択とプーリングにより、拡散モデルは、分類タスクにおいて同等な生成的識別的手法より優れていることが判明した。
論文 参考訳(メタデータ) (2023-07-17T17:59:40Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - Hierarchical Few-Shot Generative Models [18.216729811514718]
本稿では,ニューラルネットワークを階層的なアプローチに拡張する潜伏変数のアプローチについて検討する。
以上の結果から,階層的な定式化は,小データ構造における集合内の内在的変動をよりよく捉えることが示唆された。
論文 参考訳(メタデータ) (2021-10-23T19:19:39Z) - Meta Internal Learning [88.68276505511922]
単一画像生成のための内部学習は、単一の画像に基づいて新しい画像を生成するようにジェネレータを訓練するフレームワークである。
本稿では,サンプル画像の内部統計をより効果的にモデル化するために,画像集合のトレーニングを可能にするメタラーニング手法を提案する。
以上の結果から, 得られたモデルは, 多数の共通画像アプリケーションにおいて, シングルイメージのGANと同程度に適していることがわかった。
論文 参考訳(メタデータ) (2021-10-06T16:27:38Z) - Personalizing Pre-trained Models [23.145974171912414]
上流の事前訓練されたモデルが、下流のいくつかのショット、複数ラベル、連続的な学習タスクにどのように活用できるかを検討する。
私たちのモデルであるCLIPPER(CLIP PERsonalized)では,弱い自然言語による画像表現学習モデルであるCLIPのイメージ表現を使用している。
論文 参考訳(メタデータ) (2021-06-02T22:58:47Z) - Semi-Supervised Few-Shot Classification with Deep Invertible Hybrid
Models [4.189643331553922]
半教師付き小ショット分類のための潜在空間レベルで識別学習と生成学習を統合するディープ・インバーチブルハイブリッドモデルを提案する。
我々の主な独創性は、これらのコンポーネントを潜在空間レベルで統合することであり、過度な適合を防ぐのに有効である。
論文 参考訳(メタデータ) (2021-05-22T05:55:16Z) - Multiscale Deep Equilibrium Models [162.15362280927476]
マルチスケールディープ均衡モデル(MDEQ)を新たに提案する。
MDEQは、複数の特徴分解の平衡点を直接解き、同時に伝播する。
本稿では,Cityscapesデータセットの高解像度画像に対するイメージネット分類とセマンティックセグメンテーションの2つの大規模ビジョンタスクにおけるこのアプローチの有効性について述べる。
論文 参考訳(メタデータ) (2020-06-15T18:07:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。