Fugu-MT 論文翻訳(概要): ChatGPT-Powered Hierarchical Comparisons for Image Classification

論文の概要: ChatGPT-Powered Hierarchical Comparisons for Image Classification

arxiv url: http://arxiv.org/abs/2311.00206v1
Date: Wed, 1 Nov 2023 00:26:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-02 15:20:50.350388
Title: ChatGPT-Powered Hierarchical Comparisons for Image Classification
Title（参考訳）: ChatGPTを用いた画像分類のための階層的比較
Authors: Zhiyuan Ren, Yiyang Su and Xiaoming Liu
Abstract要約: 大規模言語モデル(LLM)に基づく画像分類のための新しいフレームワークを提案する。クラスを階層に分類し、階層レベルで画像テキストの埋め込みを比較して分類し、直感的で効果的で説明可能なアプローチをもたらす。
参考スコア（独自算出の注目度）: 12.126353699873281
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The zero-shot open-vocabulary challenge in image classification is tackled by pretrained vision-language models like CLIP, which benefit from incorporating class-specific knowledge from large language models (LLMs) like ChatGPT. However, biases in CLIP lead to similar descriptions for distinct but related classes, prompting our novel image classification framework via hierarchical comparisons: using LLMs to recursively group classes into hierarchies and classifying images by comparing image-text embeddings at each hierarchy level, resulting in an intuitive, effective, and explainable approach.
Abstract（参考訳）: 画像分類におけるゼロショットのオープン語彙問題は、CLIPのような事前訓練された視覚言語モデルによって取り組まれている。しかし、CLIPのバイアスは、異なるが関連するクラスに対する同様の記述をもたらし、階層的な比較を通じて、新しい画像分類フレームワークを誘導する: LLMを使って、階層に再帰的にクラスを分類し、階層レベルで画像テキストの埋め込みを比較することによって、イメージを分類し、直感的で効果的で説明可能なアプローチをもたらす。

関連論文リスト

Making Better Mistakes in CLIP-Based Zero-Shot Classification with Hierarchy-Aware Language Prompts [2.967024581564439]
私たちはCLIPベースのゼロショット分類において、より良い誤りを犯すことを紹介します。提案手法は, 5つのデータセットの総合的な比較において, 関連手法よりも優れている。
論文参考訳（メタデータ） (2025-03-04T03:54:50Z)
LMM-Regularized CLIP Embeddings for Image Classification [11.801596051153725]
我々は,強力なCLIPビジョン言語モデルを用いた画像分類タスクに対処する。本稿では,LMMに基づく正規化手法を提案する。このようにして、識別能力を増強した埋め込みを生成する。
論文参考訳（メタデータ） (2024-12-16T11:11:23Z)
Grounding Descriptions in Images informs Zero-Shot Visual Recognition [47.66166611138081]
我々は,表現を細かなレベルと粗いレベルの両方で同時に調整することを目的とした,新しい事前学習戦略であるGRAINを提案する。我々は,現在の最先端技術と比較して,モデルのゼロショット性能の向上を実証する。
論文参考訳（メタデータ） (2024-12-05T18:52:00Z)
Finetuning CLIP to Reason about Pairwise Differences [52.028073305958074]
本稿では,CLIPのような視覚言語モデルの学習手法を提案する。我々はまず,ある属性による画像のランク付け能力を大幅に向上させることを実証した。また、得られる埋め込みは埋め込み空間においてより大きな幾何学的性質に従うことを示す。
論文参考訳（メタデータ） (2024-09-15T13:02:14Z)
UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding [90.74967596080982]
本稿では,マルチグラニュラリティアライメントを備えたコントラスト言語-画像事前学習(CLIP)を拡張した。 UMG-CLIPと呼ばれる統一多言語学習フレームワークを開発した。パラメータ効率のよいチューニングにより、UMG-CLIPは、現在広く使われているCLIPの亜種を超え、多様な画像理解ベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-01-12T06:35:09Z)
CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文参考訳（メタデータ） (2023-12-04T05:13:59Z)
HGCLIP: Exploring Vision-Language Models with Graph Representations for Hierarchical Understanding [18.95003393925676]
異なる階層レベルでカテゴリを分類する場合、従来のユニモーダルアプローチは主にイメージ機能に焦点を当て、複雑なシナリオにおける制限を明らかにする。ビジョンランゲージモデル(VLM)とクラス階層を統合する最近の研究は、将来性を示しているが、階層関係を完全に活用するには至っていない。本稿では,CLIPとグラフ表現学習による階層型クラス構造のより深い活用を効果的に組み合わせた新しいフレームワークを提案する。
論文参考訳（メタデータ） (2023-11-23T15:42:42Z)
LLMs as Visual Explainers: Advancing Image Classification with Evolving Visual Descriptions [13.546494268784757]
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) を統合し,最適なクラス記述子を求めるフレームワークを提案する。我々の学習自由アプローチは、反復的にクラス記述子を洗練するための進化的最適化戦略を備えたLLMベースのエージェントを開発する。
論文参考訳（メタデータ） (2023-11-20T16:37:45Z)
Waffling around for Performance: Visual Classification with Random Words and Broad Concepts [121.60918966567657]
WaffleCLIPはゼロショット視覚分類のためのフレームワークで、LLM生成した記述子をランダムな文字と単語記述子に置き換える。 LLM生成記述子で導入された追加意味論の影響と欠点について、広範囲にわたる実験的研究を行う。
論文参考訳（メタデータ） (2023-06-12T17:59:48Z)
Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文参考訳（メタデータ） (2022-05-26T03:13:43Z)
Zero-Shot Recognition through Image-Guided Semantic Classification [9.291055558504588]
ゼロショット学習(ZSL)のための新しい埋め込み型フレームワークを提案する。複数ラベル分類のための2値関係法により,画像と意味分類器のマッピングを逆学習する手法を提案する。 IGSCは概念的には単純であり、分類のための既存のディープアーキテクチャをわずかに拡張することで実現可能である。
論文参考訳（メタデータ） (2020-07-23T06:22:40Z)
Hierarchical Image Classification using Entailment Cone Embeddings [68.82490011036263]
まずラベル階層の知識を任意のCNNベースの分類器に注入する。画像からの視覚的セマンティクスと組み合わせた外部セマンティクス情報の利用が全体的な性能を高めることを実証的に示す。
論文参考訳（メタデータ） (2020-04-02T10:22:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。