Fugu-MT 論文翻訳(概要): Inject Semantic Concepts into Image Tagging for Open-Set Recognition

論文の概要: Inject Semantic Concepts into Image Tagging for Open-Set Recognition

arxiv url: http://arxiv.org/abs/2310.15200v1
Date: Mon, 23 Oct 2023 08:13:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-25 22:31:48.802597
Title: Inject Semantic Concepts into Image Tagging for Open-Set Recognition
Title（参考訳）: オープンセット認識のための画像タグ付けに意味概念を注入する
Authors: Xinyu Huang, Yi-Jie Huang, Youcai Zhang, Weiwei Tian, Rui Feng, Yuejie Zhang, Yanchun Xie, Yaqian Li, Lei Zhang
Abstract要約: 本稿では,強力なオープンセット認識機能を備えた基本画像認識モデルであるRecognize Anything Plus Model(RAM++)を紹介する。 RAM++は、イメージテキストアライメントとイメージタグ付けを統合されたきめ細かいインタラクションフレームワークに統合する。包括的な画像認識ベンチマークの評価は、RAM++が既存の最先端の基本的な画像認識モデルを上回ることを示している。
参考スコア（独自算出の注目度）: 25.640432824450905
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we introduce the Recognize Anything Plus Model~(RAM++), a fundamental image recognition model with strong open-set recognition capabilities, by injecting semantic concepts into image tagging training framework. Previous approaches are either image tagging models constrained by limited semantics, or vision-language models with shallow interaction for suboptimal performance in multi-tag recognition. In contrast, RAM++ integrates image-text alignment and image-tagging within a unified fine-grained interaction framework based on image-tags-text triplets. This design enables RAM++ not only excel in identifying predefined categories, but also significantly augment the recognition ability in open-set categories. Moreover, RAM++ employs large language models~(LLMs) to generate diverse visual tag descriptions, pioneering the integration of LLM's knowledge into image tagging training. This approach empowers RAM++ to integrate visual description concepts for open-set recognition during inference. Evaluations on comprehensive image recognition benchmarks demonstrate RAM++ exceeds existing state-of-the-art (SOTA) fundamental image recognition models on most aspects. Specifically, for predefined common-used tag categories, RAM++ showcases 10.2 mAP and 15.4 mAP enhancements over CLIP on OpenImages and ImageNet. For open-set categories beyond predefined, RAM++ records improvements of 5 mAP and 6.4 mAP over CLIP and RAM respectively on OpenImages. For diverse human-object interaction phrases, RAM++ achieves 7.8 mAP and 4.7 mAP improvements on the HICO benchmark. Code, datasets and pre-trained models are available at \url{https://github.com/xinyu1205/recognize-anything}.
Abstract（参考訳）: 本稿では,画像タグ学習フレームワークに意味概念を注入することにより,強力なオープンセット認識能力を持つ基本画像認識モデルである認識any plus model~(ram++)を提案する。従来のアプローチは、限定された意味論に制約された画像タグ付けモデルか、マルチタグ認識におけるサブ最適性能のための浅い相互作用を持つ視覚言語モデルである。対照的に、ram++は、画像タグテキストトリプレットに基づく統合きめ細かなインタラクションフレームワークに、画像-テキストアライメントと画像-タグ統合を統合する。この設計により、RAM++は定義済みのカテゴリを識別するだけでなく、オープンセットのカテゴリの認識能力を大幅に向上できる。さらに、RAM++は多種多様なビジュアルタグ記述を生成するために、大きな言語モデル~(LLM)を採用しており、LLMの知識をイメージタグトレーニングに統合する先駆者となっている。このアプローチにより、RAM++は推論中にオープンセット認識のためのビジュアル記述の概念を統合することができる。包括的な画像認識ベンチマークの評価では、RAM++は既存の最先端(SOTA)の基本画像認識モデルよりも多くの面において優れている。具体的には、事前に定義された共通タグカテゴリに対して、RAM++では、OpenImagesとImageNet上のCLIPよりも10.2mAPと15.4mAPの強化が紹介されている。事前定義された以上のオープンセットカテゴリでは、RAM++はCLIPとRAMに対する5mAPと6.4mAPの改善を記録している。多様なヒューマンオブジェクトのインタラクションフレーズに対して、RAM++はHICOベンチマークで7.8mAPと4.7mAPの改善を達成した。コード、データセット、事前学習されたモデルは \url{https://github.com/xinyu1205/recognize-anything} で利用可能である。

関連論文リスト

GIE-Bench: Towards Grounded Evaluation for Text-Guided Image Editing [60.66800567924348]
テキスト誘導画像編集モデルを評価するための新しいベンチマークを導入する。このベンチマークには、20種類のコンテンツカテゴリにわたる高品質な編集例が1000以上含まれている。我々は、GPT-Image-1をいくつかの最先端編集モデルと比較する大規模な研究を行っている。
論文参考訳（メタデータ） (2025-05-16T17:55:54Z)
MIEB: Massive Image Embedding Benchmark [12.080155288744594]
本稿では、画像と画像テキストの埋め込みモデルの性能を評価するために、MIEB(Massive Image Embedding Benchmark)を提案する。 MIEBは、130のタスクにまたがる38の言語にまたがる。ベンチマークで50のモデルをベンチマークしたところ、すべてのタスクカテゴリで1つのメソッドが支配的でないことが分かりました。
論文参考訳（メタデータ） (2025-04-14T17:54:28Z)
TULIP: Towards Unified Language-Image Pretraining [60.99500935831526]
既存のCLIPライクなモデルの代替として,オープンソースでドロップイン可能なTを導入する。提案手法は, 生成データの拡張, 画像画像の強化, テキストコントラスト学習, 画像/テキスト再構成正規化を利用して, きめ細かい視覚的特徴を学習する。当社のアプローチでは、ベンチマーク全体で既存の最先端(SOTA)モデルを上回っています。
論文参考訳（メタデータ） (2025-03-19T17:58:57Z)
ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文参考訳（メタデータ） (2025-02-12T13:28:46Z)
Document Haystacks: Vision-Language Reasoning Over Piles of 1000+ Documents [31.98555661903688]
大規模マルチモーダルモデル (LMM) は視覚言語理解において顕著な進歩を遂げた。それらは、多数の画像に対して複雑な推論を必要とする現実世界のアプリケーションにおいて制限に直面している。我々はDocHaystackとInfoHaystackという2つの文書ハイスタックベンチマークを導入し、大規模ビジュアル文書検索と理解においてLMMの性能を評価する。
論文参考訳（メタデータ） (2024-11-23T18:14:42Z)
OVMR: Open-Vocabulary Recognition with Multi-Modal References [96.21248144937627]
既存の研究では、モデルにカテゴリキューを埋め込む方法がいくつか提案されている。本稿では,テキスト記述と模範画像からなるマルチモーダル手がかりを参考に,異なる視点からオープン語彙認識に取り組む。提案したOVMRはプラグイン・アンド・プレイモジュールであり、インターネットからランダムにクロールされた典型的な画像とうまく機能する。
論文参考訳（メタデータ） (2024-06-07T06:45:28Z)
Textual Knowledge Matters: Cross-Modality Co-Teaching for Generalized Visual Class Discovery [69.91441987063307]
Generalized Category Discovery (GCD)は、既知のカテゴリと未知のカテゴリの両方からラベルのないデータをクラスタすることを目的としている。現在のGCD法は、新しい視覚カテゴリーを発見する際に、人間の認知過程の多様性知覚性を無視する視覚的手がかりのみに依存している。マルチモーダルなGCDを実現するための2段階のTextGCDフレームワークを提案する。
論文参考訳（メタデータ） (2024-03-12T07:06:50Z)
Data-free Multi-label Image Recognition via LLM-powered Prompt Tuning [23.671999163027284]
本稿では,学習データを持たないマルチラベル画像認識のための新しいフレームワークを提案する。事前学習されたLarge Language Modelの知識を使用して、CLIPのような事前学習されたVision-Language Modelをマルチラベル分類に適応させるプロンプトを学ぶ。本フレームワークは,新しいカテゴリー認識のための複数の事前学習モデル間の相乗効果を探索する新しい手法を提案する。
論文参考訳（メタデータ） (2024-03-02T13:43:32Z)
UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding [90.74967596080982]
本稿では,マルチグラニュラリティアライメントを備えたコントラスト言語-画像事前学習(CLIP)を拡張した。 UMG-CLIPと呼ばれる統一多言語学習フレームワークを開発した。パラメータ効率のよいチューニングにより、UMG-CLIPは、現在広く使われているCLIPの亜種を超え、多様な画像理解ベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-01-12T06:35:09Z)
User-Aware Prefix-Tuning is a Good Learner for Personalized Image Captioning [35.211749514733846]
従来の画像キャプション方式は、ユーザの好みや特徴を無視することが多い。既存のほとんどの手法は、メモリネットワークやトランスフォーマーによるユーザコンテキストの融合プロセスを強調している。本稿では,ユーザコンテキストを利用したパーソナライズされた画像キャプションフレームワークを提案する。
論文参考訳（メタデータ） (2023-12-08T02:08:00Z)
Recognize Anything: A Strong Image Tagging Model [15.28432853346494]
本稿では、画像タグ付けのための強力な基礎モデルである認識任意のモデル(RAM)を提案する。 RAMはコンピュータビジョンにおける大きなモデルにとって重要なステップであり、高い精度で共通のカテゴリを認識できるゼロショット能力を示している。多数のベンチマークでRAMのタグ付け機能を評価し,印象的なゼロショット性能を観察する。
論文参考訳（メタデータ） (2023-06-06T09:00:10Z)
Segment Everything Everywhere All at Once [124.90835636901096]
画像中のすべてのものを同時にセグメント化するための,迅速かつインタラクティブなモデルであるSEEMを提案する。そこで本研究では,あらゆるタイプのセグメンテーションタスクに対して,多様なプロンプトを可能にする新しい復号化機構を提案する。多様なセグメンテーションタスクにおけるSEEMの有効性を検証するための総合的な実証的研究を行った。
論文参考訳（メタデータ） (2023-04-13T17:59:40Z)
ViewCo: Discovering Text-Supervised Segmentation Masks via Multi-View Semantic Consistency [126.88107868670767]
テキスト教師付きセマンティックセグメンテーションのためのマルチテキストbfView textbfConsistent Learning (ViewCo)を提案する。まず,同じ入力画像の複数ビューに対する対応性を学習するためのテキスト・ツー・ビュー整合性モデリングを提案する。また,テキスト管理の曖昧性問題に対処するために,クロスビューセグメンテーション整合性モデリングを提案する。
論文参考訳（メタデータ） (2023-01-31T01:57:52Z)
Open Vocabulary Multi-Label Classification with Dual-Modal Decoder on Aligned Visual-Textual Features [14.334304670606633]
本稿では,視覚的特徴とテキスト的特徴の整合性を備えた2次元デコーダ (DM-decoder) を含む新しいアルゴリズム,Aligned Dual MoDality ClaSsifier (ADDS) を提案する。 NUS-WIDE, ImageNet-1k, ImageNet-21k, MS-COCO など,いくつかの標準ベンチマークで実施された大規模な実験により,提案手法が従来の手法よりも大幅に優れていることが示された。
論文参考訳（メタデータ） (2022-08-19T22:45:07Z)
DualCoOp: Fast Adaptation to Multi-Label Recognition with Limited Annotations [61.41339201200135]
本稿では,部分ラベル MLR とゼロショット MLR の統一フレームワークとして,Dual Context Optimization (DualCoOp) を提案する。 DualCoOpは、事前訓練された視覚言語フレームワークに非常に軽い学習可能なオーバーヘッドしか導入しないため、マルチラベル認識タスクに迅速に適応できる。
論文参考訳（メタデータ） (2022-06-20T02:36:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。