Fugu-MT 論文翻訳(概要): Semantically-Prompted Language Models Improve Visual Descriptions

論文の概要: Semantically-Prompted Language Models Improve Visual Descriptions

arxiv url: http://arxiv.org/abs/2306.06077v4
Date: Fri, 22 Nov 2024 15:58:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:28.992402
Title: Semantically-Prompted Language Models Improve Visual Descriptions
Title（参考訳）: 意味的にプロンプトされた言語モデルによる視覚記述の改善
Authors: Michael Ogezi, Bradley Hauer, Grzegorz Kondrak,
Abstract要約: 本稿では,表現力のある視覚記述を生成する新しい手法であるV-GLOSS: Visual Glossesを提案する。 V-GLOSSは視覚的記述を改善し、画像分類データセットのゼロショット設定において強い結果が得られることを示す。
参考スコア（独自算出の注目度）: 12.267513953980092
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Language-vision models like CLIP have made significant strides in vision tasks, such as zero-shot image classification (ZSIC). However, generating specific and expressive visual descriptions remains challenging; descriptions produced by current methods are often ambiguous and lacking in granularity. To tackle these issues, we propose V-GLOSS: Visual Glosses, a novel method built upon two key ideas. The first is Semantic Prompting, which conditions a language model on structured semantic knowledge. The second is a new contrastive algorithm that elicits fine-grained distinctions between similar concepts. With both ideas, we demonstrate that V-GLOSS improves visual descriptions and achieves strong results in the zero-shot setting on general and fine-grained image-classification datasets, including ImageNet, STL-10, FGVC Aircraft, and Flowers 102. Moreover, these descriptive capabilities contribute to enhancing image-generation performance. Finally, we introduce a quality-tested silver dataset with descriptions generated with V-GLOSS for all ImageNet classes.
Abstract（参考訳）: CLIPのような言語ビジョンモデルは、ゼロショット画像分類(ZSIC)のような視覚タスクにおいて大きな進歩を遂げている。しかし、具体的かつ表現的な視覚的記述の生成は依然として困難であり、現在の方法による記述は曖昧であり、粒度が不足していることが多い。これらの問題に対処するため、我々はV-GLOSS: Visual Glossesを提案する。 1つ目はセマンティック・プロンプティング(Semantic Prompting)である。 2つ目は、類似した概念を微妙に区別する新しいコントラストアルゴリズムである。両概念とも、V-GLOSSは視覚的記述を改善し、画像Net, STL-10, FGVC Aircraft, Flowers 102などの画像分類データセットのゼロショット設定において、強い結果が得られることを示す。さらに、これらの記述能力は、画像生成性能の向上に寄与する。最後に、すべてのImageNetクラスに対して、V-GLOSSで生成された記述を含む品質テストされた銀のデータセットを紹介する。

関連論文リスト

CLIP-IN: Enhancing Fine-Grained Visual Understanding in CLIP via Instruction Editing Data and Long Captions [17.05291662808873]
CLIP-IN(CLIP-IN)は、2つのコアイノベーションを通じてCLIPの微粒な認識を促進する新しいフレームワークである。まず、画像操作用に設計された命令編集データセットを、ハードネガティブな画像テキストペアのユニークな情報源として活用する。第二に、CLIP-INは長いキャプションを組み込み、回転する位置エンコーディングを利用して、標準のCLIPでしばしば見逃されるリッチなセマンティックコンテキストをキャプチャする。
論文参考訳（メタデータ） (2025-08-04T11:57:10Z)
TULIP: Towards Unified Language-Image Pretraining [60.99500935831526]
既存のCLIPライクなモデルの代替として,オープンソースでドロップイン可能なTを導入する。提案手法は, 生成データの拡張, 画像画像の強化, テキストコントラスト学習, 画像/テキスト再構成正規化を利用して, きめ細かい視覚的特徴を学習する。当社のアプローチでは、ベンチマーク全体で既存の最先端(SOTA)モデルを上回っています。
論文参考訳（メタデータ） (2025-03-19T17:58:57Z)
Language-Guided Visual Perception Disentanglement for Image Quality Assessment and Conditional Image Generation [48.642826318384294]
CLIPのような対照的な視覚言語モデルは、セマンティック認識タスク間で優れたゼロショット機能を示している。本稿では, 画像のゆがみを導くために, ゆがみのあるテキストを利用する, マルチモーダルな非絡み付き表現学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-04T02:36:48Z)
Grounding Descriptions in Images informs Zero-Shot Visual Recognition [47.66166611138081]
我々は,表現を細かなレベルと粗いレベルの両方で同時に調整することを目的とした,新しい事前学習戦略であるGRAINを提案する。我々は,現在の最先端技術と比較して,モデルのゼロショット性能の向上を実証する。
論文参考訳（メタデータ） (2024-12-05T18:52:00Z)
FLAIR: VLM with Fine-grained Language-informed Image Representations [49.2684130383925]
FLAIRは、局所的な画像埋め込みを学ぶために、長く詳細な画像記述を利用するアプローチである。実験では,30M画像テキスト対を用いたFLAIRによる微細な視覚情報収集の有効性を実証した。
論文参考訳（メタデータ） (2024-12-04T18:56:04Z)
GIST: Generating Image-Specific Text for Fine-grained Object Classification [8.118079247462425]
GISTは、画像のみのデータセットから、画像固有のきめ細かいテキスト記述を生成する方法である。提案手法は,CLIP線形プローブよりも平均4.1%の精度向上を実現している。
論文参考訳（メタデータ） (2023-07-21T02:47:18Z)
Text Descriptions are Compressive and Invariant Representations for Visual Learning [63.3464863723631]
本研究では,クラスごとの複数の視覚的特徴に対する人間の理解に則って,頑健な数ショット学習環境では魅力的な性能が得られることを示す。特に,SLR-AVD (Sparse Logistic Regression using Augmented Visual Descriptors) という新しい手法を導入する。このメソッドはまず、まず大きな言語モデル(LLM)を介して各クラスの複数の視覚的記述を自動生成し、次にVLMを使用してこれらの記述を各画像の視覚的特徴埋め込みに変換し、最後に、これらの特徴の関連するサブセットを選択するためにスパースロジスティック回帰を使用する。
論文参考訳（メタデータ） (2023-07-10T03:06:45Z)
UniFine: A Unified and Fine-grained Approach for Zero-shot Vision-Language Understanding [84.83494254263138]
ゼロショット視覚言語学習のための微細な情報を利用する統一的なフレームワークを提案する。我々のフレームワークは従来のVQAのゼロショット法よりも優れており、SNLI-VEとVCRの大幅な改善を実現している。
論文参考訳（メタデータ） (2023-07-03T09:03:12Z)
DesCo: Learning Object Recognition with Rich Language Descriptions [93.8177229428617]
視覚言語アプローチの最近の発展は、言語指導から視覚認識モデルを学習するパラダイムシフトを引き起こしている。本稿では,リッチ言語記述を用いたオブジェクト認識モデル学習のための記述条件付き(DesCo)パラダイムを提案する。
論文参考訳（メタデータ） (2023-06-24T21:05:02Z)
CLIP-Count: Towards Text-Guided Zero-Shot Object Counting [32.07271723717184]
オープン語彙オブジェクトの密度マップをゼロショットで推定する,最初のエンドツーエンドパイプラインであるCLIP-Countを提案する。テキスト埋め込みを濃密な視覚特徴と整合させるため、我々は、密集した予測のための情報的パッチレベルの視覚表現を学習するために、モデルを誘導するパッチテキストコントラスト損失を導入する。本手法は,対象物に対する高品質な密度マップを効果的に生成する。
論文参考訳（メタデータ） (2023-05-12T08:19:39Z)
SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。 SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。 13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文参考訳（メタデータ） (2022-11-28T14:58:15Z)
K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文参考訳（メタデータ） (2022-04-20T04:47:01Z)
Image Difference Captioning with Pre-training and Contrastive Learning [45.59621065755761]
画像差分キャプション(IDC)タスクは、自然言語と類似した2つの画像の視覚的差異を記述することを目的としている。このタスクの主な課題は、1)より強力な視覚と言語関連を学習する必要のある、きめ細かい視覚的差異、2)手動アノテーションのコストの2つの側面にある。本稿では,これらの課題に対処するために,事前学習ファインタニングパラダイムに基づく新しいモデリングフレームワークを提案する。
論文参考訳（メタデータ） (2022-02-09T06:14:22Z)
Semantic Disentangling Generalized Zero-Shot Learning [50.259058462272435]
Generalized Zero-Shot Learning (GZSL)は、目に見えないカテゴリと見えないカテゴリの両方から画像を認識することを目的としている。本稿では,エンコーダ・デコーダアーキテクチャに基づく新しい特徴分割手法を提案する。提案モデルは,視像の固有特徴をキャプチャする品質意味一貫性表現を蒸留することを目的としている。
論文参考訳（メタデータ） (2021-01-20T05:46:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。