論文の概要: Recognize Anything: A Strong Image Tagging Model
- arxiv url: http://arxiv.org/abs/2306.03514v3
- Date: Fri, 9 Jun 2023 15:21:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-12 10:16:23.329775
- Title: Recognize Anything: A Strong Image Tagging Model
- Title(参考訳): あらゆるものを認識する:強力な画像タグモデル
- Authors: Youcai Zhang, Xinyu Huang, Jinyu Ma, Zhaoyang Li, Zhaochuan Luo,
Yanchun Xie, Yuzhuo Qin, Tong Luo, Yaqian Li, Shilong Liu, Yandong Guo, Lei
Zhang
- Abstract要約: 本稿では、画像タグ付けのための強力な基礎モデルである認識任意のモデル(RAM)を提案する。
RAMはコンピュータビジョンにおける大きなモデルにとって重要なステップであり、高い精度で共通のカテゴリを認識できるゼロショット能力を示している。
多数のベンチマークでRAMのタグ付け機能を評価し,印象的なゼロショット性能を観察する。
- 参考スコア(独自算出の注目度): 15.28432853346494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present the Recognize Anything Model (RAM): a strong foundation model for
image tagging. RAM makes a substantial step for large models in computer
vision, demonstrating the zero-shot ability to recognize any common category
with high accuracy. RAM introduces a new paradigm for image tagging, leveraging
large-scale image-text pairs for training instead of manual annotations.
The development of RAM comprises four key steps. Firstly, annotation-free
image tags are obtained at scale through automatic text semantic parsing.
Subsequently, a preliminary model is trained for automatic annotation by
unifying the caption and tagging tasks, supervised by the original texts and
parsed tags, respectively. Thirdly, a data engine is employed to generate
additional annotations and clean incorrect ones. Lastly, the model is retrained
with the processed data and fine-tuned using a smaller but higher-quality
dataset.
We evaluate the tagging capabilities of RAM on numerous benchmarks and
observe impressive zero-shot performance, significantly outperforming CLIP and
BLIP. Remarkably, RAM even surpasses the fully supervised manners and exhibits
competitive performance with the Google tagging API. We are releasing the RAM
at \url{https://recognize-anything.github.io/} to foster the advancements of
large models in computer vision.
- Abstract(参考訳): 我々は,画像タグ付けのための強固な基礎モデルであるliam anything model(ram)を提案する。
RAMはコンピュータビジョンにおける大きなモデルにとって重要なステップであり、高い精度で共通のカテゴリを認識するゼロショット能力を示す。
RAMは画像タグ付けの新しいパラダイムを導入し、手動のアノテーションの代わりに大規模な画像テキストペアをトレーニングに利用している。
RAMの開発には4つの重要なステップがある。
まず、アノテーションのない画像タグを自動テキストセマンティック解析によって大規模に取得する。
その後、キャプションとタグ付けタスクを統一し、それぞれ元のテキストとパースされたタグで教師された予備モデルで自動アノテーションを訓練する。
第3に、追加のアノテーションと不正確なアノテーションを生成するために、データエンジンが使用される。
最後に、モデルは処理されたデータで再トレーニングされ、より小さいが高品質なデータセットを使用して微調整される。
多数のベンチマークでRAMのタグ付け機能を評価し,優れたゼロショット性能を示し,CLIPとBLIPを著しく上回る性能を示した。
注目すべきは、RAMが完全に教師された方法を超え、Googleタグ付けAPIと競合するパフォーマンスを示すことだ。
私たちは、コンピュータビジョンにおける大きなモデルの進歩を促進するために、RAMを \url{https://recognize-anything.github.io/} でリリースしています。
関連論文リスト
- Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。
2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。
LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文 参考訳(メタデータ) (2024-10-08T15:22:36Z) - Open-Set Image Tagging with Multi-Grained Text Supervision [25.640432824450905]
我々は,多粒度テキスト管理を効果的に活用するオープンセット画像タグ付けモデルであるRecognize Anything Plus Model (RAM++)を紹介する。
RAM++は、個々のタグ管理とグローバルテキスト管理をシームレスに統合する。
RAM++は、意味的に制約されたタグ管理をより拡張的なタグ記述管理に変換するために、大きな言語モデル(LLM)を使用している。
論文 参考訳(メタデータ) (2023-10-23T08:13:33Z) - Improving Image Recognition by Retrieving from Web-Scale Image-Text Data [68.63453336523318]
本稿では,メモリから抽出した各サンプルの重要性を学習するアテンションベースのメモリモジュールを提案する。
既存の手法と比較して,提案手法は無関係な検索例の影響を排除し,入力クエリに有益であるものを保持する。
我々は、ImageNet-LT、Places-LT、Webvisionのデータセットで最先端の精度を実現していることを示す。
論文 参考訳(メタデータ) (2023-04-11T12:12:05Z) - MAtch, eXpand and Improve: Unsupervised Finetuning for Zero-Shot Action
Recognition with Language Knowledge [35.45809761628721]
大規模ヴィジュアル・ランゲージ(VL)モデルは、視覚とテキストのモダリティの表現の整合に大きな成功を収めている。
ゼロショット動作認識性能を最良にするために,ビデオデータのチューニングを教師なしで行う手法を提案する。
得られたモデルでは、多くのゼロショットダウンストリームタスクに高い転送性を示す。
論文 参考訳(メタデータ) (2023-03-15T20:17:41Z) - Tag2Text: Guiding Vision-Language Model via Image Tagging [32.30893277821682]
本稿では,視覚言語事前学習フレームワークであるTag2Textについて述べる。
対象タグを手動でラベル付けするか,あるいはオフザシェルフ検出器で自動的に検出する従来の手法とは対照的に,本手法では画像ペアリングテキストから解析したタグを用いて画像タグを明示的に学習する。
論文 参考訳(メタデータ) (2023-03-10T02:16:35Z) - Open-domain Visual Entity Recognition: Towards Recognizing Millions of
Wikipedia Entities [54.26896306906937]
我々はOVEN-Wikiを提示する。そこでは、テキストクエリに関して、モデルをウィキペディアのエンティティにリンクする必要がある。
私たちは、微調整中に見たことのないWikipediaのエンティティでも、PaLIベースの自動回帰視覚認識モデルが驚くほどうまく機能していることを示します。
PaLIベースのモデルでは全体的なパフォーマンスが向上するが、CLIPベースのモデルはテールエンティティを認識するのに優れている。
論文 参考訳(メタデータ) (2023-02-22T05:31:26Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - GIT: A Generative Image-to-text Transformer for Vision and Language [138.91581326369837]
我々は、画像/映像キャプションや質問応答などの視覚言語タスクを統合するために、生成画像からテキストへ変換するGITを訓練する。
われわれのモデルはTextCaps(CIDErで138.2対125.5)で初めて人間のパフォーマンスを上回った。
論文 参考訳(メタデータ) (2022-05-27T17:03:38Z) - ActionCLIP: A New Paradigm for Video Action Recognition [14.961103794667341]
ラベルテキストのセマンティック情報に重きを置くことで,行動認識の新しい視点を提供する。
動作認識のためのマルチモーダル学習フレームワークに基づく新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2021-09-17T11:21:34Z) - Memory Efficient Meta-Learning with Large Images [62.70515410249566]
数ショットの分類に対するメタ学習アプローチは、新しいタスクを学ぶために、ほんの数ステップの最適化やシングルフォワードパスを必要とするテスト時に計算的に効率的である。
この制限は、最大1000のイメージを含むタスクの全体サポートセットが、最適化ステップを取る前に処理されなければならないために生じる。
本稿では,1つのGPU上の大容量画像からなる大規模タスクのメタトレーニングを可能にする,汎用的でメモリ効率の良いエピソード・トレーニング手法であるLITEを提案する。
論文 参考訳(メタデータ) (2021-07-02T14:37:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。