論文の概要: Open-Set Image Tagging with Multi-Grained Text Supervision
- arxiv url: http://arxiv.org/abs/2310.15200v2
- Date: Thu, 16 Nov 2023 07:11:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 17:21:57.688982
- Title: Open-Set Image Tagging with Multi-Grained Text Supervision
- Title(参考訳): 多点テキストスーパービジョンによるオープンセット画像タギング
- Authors: Xinyu Huang, Yi-Jie Huang, Youcai Zhang, Weiwei Tian, Rui Feng, Yuejie
Zhang, Yanchun Xie, Yaqian Li, Lei Zhang
- Abstract要約: 我々は,多粒度テキスト管理を効果的に活用するオープンセット画像タグ付けモデルであるRecognize Anything Plus Model (RAM++)を紹介する。
RAM++は、個々のタグ管理とグローバルテキスト管理をシームレスに統合する。
RAM++は、意味的に制約されたタグ管理をより拡張的なタグ記述管理に変換するために、大きな言語モデル(LLM)を使用している。
- 参考スコア(独自算出の注目度): 25.640432824450905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce the Recognize Anything Plus Model (RAM++), an
open-set image tagging model effectively leveraging multi-grained text
supervision. Previous approaches (e.g., CLIP) primarily utilize global text
supervision paired with images, leading to sub-optimal performance in
recognizing multiple individual semantic tags. In contrast, RAM++ seamlessly
integrates individual tag supervision with global text supervision, all within
a unified alignment framework. This integration not only ensures efficient
recognition of predefined tag categories, but also enhances generalization
capabilities for diverse open-set categories. Furthermore, RAM++ employs large
language models (LLMs) to convert semantically constrained tag supervision into
more expansive tag description supervision, thereby enriching the scope of
open-set visual description concepts. Comprehensive evaluations on various
image recognition benchmarks demonstrate RAM++ exceeds existing
state-of-the-art (SOTA) open-set image tagging models on most aspects.
Specifically, for predefined commonly used tag categories, RAM++ showcases 10.2
mAP and 15.4 mAP enhancements over CLIP on OpenImages and ImageNet. For
open-set categories beyond predefined, RAM++ records improvements of 5.0 mAP
and 6.4 mAP over CLIP and RAM respectively on OpenImages. For diverse
human-object interaction phrases, RAM++ achieves 7.8 mAP and 4.7 mAP
improvements on the HICO benchmark. Code, datasets and pre-trained models are
available at \url{https://github.com/xinyu1205/recognize-anything}.
- Abstract(参考訳): 本稿では,多粒度テキスト管理を効果的に活用するオープンセット画像タグ付けモデルであるRecognize Anything Plus Model (RAM++)を紹介する。
以前のアプローチ(例えばCLIP)は、主に画像と組み合わせたグローバルテキストの監督を利用しており、複数の個別のセマンティックタグを認識する際の準最適性能をもたらす。
対照的に、ram++は個々のタグの監督をグローバルテキストの監督とシームレスに統合する。
この統合により、事前定義されたタグカテゴリの効率的な認識が保証されるだけでなく、様々なオープンセットカテゴリの一般化機能も強化される。
さらに、RAM++は大きな言語モデル(LLM)を使用して、セマンティック制約付きタグ管理をより拡張的なタグ記述管理に変換することで、オープンセットの視覚的記述概念のスコープを強化する。
様々な画像認識ベンチマークに関する総合的な評価は、RAM++が既存の最先端(SOTA)イメージタグモデルを超えることを証明している。
具体的には、定義済みのタグカテゴリに対して、RAM++は、OpenImagesとImageNet上のCLIPよりも10.2mAPと15.4mAPの強化を示す。
事前定義された以上のオープンセットカテゴリでは、RAM++はCLIPとRAMに対する5.0mAPと6.4mAPの改善を記録している。
多様なヒューマンオブジェクトのインタラクションフレーズに対して、RAM++はHICOベンチマークで7.8mAPと4.7mAPの改善を達成した。
コード、データセット、事前学習されたモデルは \url{https://github.com/xinyu1205/recognize-anything} で利用可能である。
関連論文リスト
- Document Haystacks: Vision-Language Reasoning Over Piles of 1000+ Documents [31.98555661903688]
大規模マルチモーダルモデル (LMM) は視覚言語理解において顕著な進歩を遂げた。
それらは、多数の画像に対して複雑な推論を必要とする現実世界のアプリケーションにおいて制限に直面している。
我々はDocHaystackとInfoHaystackという2つの文書ハイスタックベンチマークを導入し、大規模ビジュアル文書検索と理解においてLMMの性能を評価する。
論文 参考訳(メタデータ) (2024-11-23T18:14:42Z) - OVMR: Open-Vocabulary Recognition with Multi-Modal References [96.21248144937627]
既存の研究では、モデルにカテゴリキューを埋め込む方法がいくつか提案されている。
本稿では,テキスト記述と模範画像からなるマルチモーダル手がかりを参考に,異なる視点からオープン語彙認識に取り組む。
提案したOVMRはプラグイン・アンド・プレイモジュールであり、インターネットからランダムにクロールされた典型的な画像とうまく機能する。
論文 参考訳(メタデータ) (2024-06-07T06:45:28Z) - Textual Knowledge Matters: Cross-Modality Co-Teaching for Generalized
Visual Class Discovery [69.91441987063307]
Generalized Category Discovery (GCD)は、既知のカテゴリと未知のカテゴリの両方からラベルのないデータをクラスタすることを目的としている。
現在のGCD法は、新しい視覚カテゴリーを発見する際に、人間の認知過程の多様性知覚性を無視する視覚的手がかりのみに依存している。
マルチモーダルなGCDを実現するための2段階のTextGCDフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-12T07:06:50Z) - Data-free Multi-label Image Recognition via LLM-powered Prompt Tuning [23.671999163027284]
本稿では,学習データを持たないマルチラベル画像認識のための新しいフレームワークを提案する。
事前学習されたLarge Language Modelの知識を使用して、CLIPのような事前学習されたVision-Language Modelをマルチラベル分類に適応させるプロンプトを学ぶ。
本フレームワークは,新しいカテゴリー認識のための複数の事前学習モデル間の相乗効果を探索する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-02T13:43:32Z) - UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding [90.74967596080982]
本稿では,マルチグラニュラリティアライメントを備えたコントラスト言語-画像事前学習(CLIP)を拡張した。
UMG-CLIPと呼ばれる統一多言語学習フレームワークを開発した。
パラメータ効率のよいチューニングにより、UMG-CLIPは、現在広く使われているCLIPの亜種を超え、多様な画像理解ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-12T06:35:09Z) - User-Aware Prefix-Tuning is a Good Learner for Personalized Image
Captioning [35.211749514733846]
従来の画像キャプション方式は、ユーザの好みや特徴を無視することが多い。
既存のほとんどの手法は、メモリネットワークやトランスフォーマーによるユーザコンテキストの融合プロセスを強調している。
本稿では,ユーザコンテキストを利用したパーソナライズされた画像キャプションフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-08T02:08:00Z) - Recognize Anything: A Strong Image Tagging Model [15.28432853346494]
本稿では、画像タグ付けのための強力な基礎モデルである認識任意のモデル(RAM)を提案する。
RAMはコンピュータビジョンにおける大きなモデルにとって重要なステップであり、高い精度で共通のカテゴリを認識できるゼロショット能力を示している。
多数のベンチマークでRAMのタグ付け機能を評価し,印象的なゼロショット性能を観察する。
論文 参考訳(メタデータ) (2023-06-06T09:00:10Z) - Segment Everything Everywhere All at Once [124.90835636901096]
画像中のすべてのものを同時にセグメント化するための,迅速かつインタラクティブなモデルであるSEEMを提案する。
そこで本研究では,あらゆるタイプのセグメンテーションタスクに対して,多様なプロンプトを可能にする新しい復号化機構を提案する。
多様なセグメンテーションタスクにおけるSEEMの有効性を検証するための総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2023-04-13T17:59:40Z) - ViewCo: Discovering Text-Supervised Segmentation Masks via Multi-View
Semantic Consistency [126.88107868670767]
テキスト教師付きセマンティックセグメンテーションのためのマルチテキストbfView textbfConsistent Learning (ViewCo)を提案する。
まず,同じ入力画像の複数ビューに対する対応性を学習するためのテキスト・ツー・ビュー整合性モデリングを提案する。
また,テキスト管理の曖昧性問題に対処するために,クロスビューセグメンテーション整合性モデリングを提案する。
論文 参考訳(メタデータ) (2023-01-31T01:57:52Z) - Open Vocabulary Multi-Label Classification with Dual-Modal Decoder on
Aligned Visual-Textual Features [14.334304670606633]
本稿では,視覚的特徴とテキスト的特徴の整合性を備えた2次元デコーダ (DM-decoder) を含む新しいアルゴリズム,Aligned Dual MoDality ClaSsifier (ADDS) を提案する。
NUS-WIDE, ImageNet-1k, ImageNet-21k, MS-COCO など,いくつかの標準ベンチマークで実施された大規模な実験により,提案手法が従来の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2022-08-19T22:45:07Z) - DualCoOp: Fast Adaptation to Multi-Label Recognition with Limited
Annotations [61.41339201200135]
本稿では,部分ラベル MLR とゼロショット MLR の統一フレームワークとして,Dual Context Optimization (DualCoOp) を提案する。
DualCoOpは、事前訓練された視覚言語フレームワークに非常に軽い学習可能なオーバーヘッドしか導入しないため、マルチラベル認識タスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-06-20T02:36:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。