論文の概要: Self-Supervised Open-Ended Classification with Small Visual Language
Models
- arxiv url: http://arxiv.org/abs/2310.00500v2
- Date: Wed, 6 Dec 2023 13:16:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 18:13:35.924031
- Title: Self-Supervised Open-Ended Classification with Small Visual Language
Models
- Title(参考訳): 小さな視覚言語モデルを用いた自己監督型オープンエンディング分類
- Authors: Mohammad Mahdi Derakhshani, Ivona Najdenkoska, Cees G. M. Snoek,
Marcel Worring, Yuki M. Asano
- Abstract要約: 我々は、小さな視覚言語モデルを用いたオープンエンド分類のための数ショットの能力を解放する自己教師型アプローチであるSeCAtを提案する。
約1Bパラメータを持つモデルを使用することで、FrozenやBrobAGeといった、はるかに大きなモデルの少数ショット能力より優れています。
- 参考スコア(独自算出の注目度): 60.23212389067007
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present Self-Context Adaptation (SeCAt), a self-supervised approach that
unlocks few-shot abilities for open-ended classification with small visual
language models. Our approach imitates image captions in a self-supervised way
based on clustering a large pool of images followed by assigning
semantically-unrelated names to clusters. By doing so, we construct a training
signal consisting of interleaved sequences of image and pseudocaption pairs and
a query image, which we denote as the 'self-context' sequence. Based on this
signal the model is trained to produce the right pseudo-caption. We demonstrate
the performance and flexibility of SeCAt on several multimodal few-shot
datasets, spanning various granularities. By using models with approximately 1B
parameters we outperform the few-shot abilities of much larger models, such as
Frozen and FROMAGe. SeCAt opens new possibilities for research and applications
in open-ended few-shot learning that otherwise requires access to large or
proprietary models.
- Abstract(参考訳): 視覚言語モデルを用いたオープンディビジョン分類において,自己教師付きアプローチであるsecat(self-context adaptation)を提案する。
提案手法は,大量の画像プールをクラスタ化した後,意味的に無関係な名前をクラスタ化することで,イメージキャプションを自己管理的に模倣する。
そこで我々は,画像と疑似カプセル対のインターリーブされたシーケンスと,問合せ画像からなる学習信号を構築し,それを「自己文脈」列と呼ぶ。
この信号に基づいて、モデルは適切な擬似カプセルを生成するように訓練される。
様々な粒度にまたがるマルチモーダルな数ショットデータセット上で,SeCAtの性能と柔軟性を示す。
約1Bパラメータを持つモデルを使用することで、FrozenやBrobAGeといった、はるかに大きなモデルの少数ショット能力より優れています。
SeCAtは、大規模またはプロプライエタリなモデルへのアクセスを必要とする、オープンソースの数ショット学習における研究と応用の新たな可能性を開く。
関連論文リスト
- A Simple Approach to Unifying Diffusion-based Conditional Generation [63.389616350290595]
多様な条件生成タスクを処理するための、シンプルで統一されたフレームワークを導入します。
提案手法は,異なる推論時間サンプリング方式による多目的化を実現する。
我々のモデルは、非親密なアライメントや粗い条件付けのような追加機能をサポートしています。
論文 参考訳(メタデータ) (2024-10-15T09:41:43Z) - Boosting Few-Shot Detection with Large Language Models and Layout-to-Image Synthesis [1.1633929083694388]
本稿では,最先端な生成的拡張アプローチを超越した,少数ショット検出のためのフレームワークを提案する。
我々は,新しいレイアウト対応CLIPスコアをサンプルランキングに導入し,生成したレイアウトと画像の密結合を可能にする。
アプローチでは,COCO5-,10-,30ショット設定でYOLOX-Sベースラインを140%以上,50%,35%のmAPで強化する。
論文 参考訳(メタデータ) (2024-10-09T12:57:45Z) - Investigating Self-Supervised Methods for Label-Efficient Learning [27.029542823306866]
低撮影能力のためのコントラスト学習、クラスタリング、マスク付き画像モデリングなど、さまざまな自己教師付きプレテキストタスクについて検討する。
マスク画像モデリングとクラスタリングの両方をプリテキストタスクとして含むフレームワークを導入する。
実規模データセット上でモデルをテストした場合,マルチクラス分類,マルチラベル分類,セマンティックセマンティックセグメンテーションにおける性能向上を示す。
論文 参考訳(メタデータ) (2024-06-25T10:56:03Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - Hierarchical Few-Shot Generative Models [18.216729811514718]
本稿では,ニューラルネットワークを階層的なアプローチに拡張する潜伏変数のアプローチについて検討する。
以上の結果から,階層的な定式化は,小データ構造における集合内の内在的変動をよりよく捉えることが示唆された。
論文 参考訳(メタデータ) (2021-10-23T19:19:39Z) - Meta Internal Learning [88.68276505511922]
単一画像生成のための内部学習は、単一の画像に基づいて新しい画像を生成するようにジェネレータを訓練するフレームワークである。
本稿では,サンプル画像の内部統計をより効果的にモデル化するために,画像集合のトレーニングを可能にするメタラーニング手法を提案する。
以上の結果から, 得られたモデルは, 多数の共通画像アプリケーションにおいて, シングルイメージのGANと同程度に適していることがわかった。
論文 参考訳(メタデータ) (2021-10-06T16:27:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。