論文の概要: Contrastive Learning with Enhanced Abstract Representations using Grouped Loss of Abstract Semantic Supervision
- arxiv url: http://arxiv.org/abs/2509.12771v1
- Date: Tue, 16 Sep 2025 07:36:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.949816
- Title: Contrastive Learning with Enhanced Abstract Representations using Grouped Loss of Abstract Semantic Supervision
- Title(参考訳): 抽象セマンティック・スーパービジョンの群損失を用いた抽象表現の強化によるコントラスト学習
- Authors: Omri Suissa, Muhiim Ali, Shengmai Chen, Yinuo Cai, Shekhar Pradhan,
- Abstract要約: グループ化画像キャプチャーデータセット(MAGIC)を導入する。
我々は、新しいコントラッシブ・ロス手法を用いて、グループ内の各画像(カプセル)の表現を符号化するモデルを誘導する。
我々の学習手法は,概念抽象能力を創発的能力として持つCLEAR GLASSモデルを導出する。
- 参考スコア(独自算出の注目度): 0.5219568203653523
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Humans can recognize an image as an instance of a general concept, beyond simply identifying its objects and their relationships. In this paper, we investigate 1. The extent to which VLMs have this concept abstraction capacity, and 2. Strategies for encoding the sort of higher-concept information in images that would enable the resulting VLM model (CLEAR GLASS model) to have this capability to a greater degree. To this end, we introduce a grouped image-caption dataset (MAGIC), which consists of several groups of image captions and for each group a set of associated images and higher-level conceptual labels. We use a novel contrastive loss technique to induce the model to encode in the representation of each image (caption) in a group the information that is common to all members of the image-caption group. Our main contribution is a grouped contrastive loss function based on text-image contrastive groups (outer contrastive loss) as well as an inner loss which measures the distances between image-caption instances in the group. Our training methodology results in the CLEAR GLASS model having the concept abstraction capacity as an emergent capacity because the model is not exposed to the higher-level concepts associated with each group. Instead, the training forces the model to create for each image-caption group a semantic representation that brings it closer to the semantic representation of the higher-level concepts in the latent semantic space. Our experiments show that this training methodology results in a model which shows improvement in abstract concept recognition compared to SOTA models.
- Abstract(参考訳): 人間はイメージを、単にオブジェクトとその関係を識別する以上の、一般的な概念の例として認識することができる。
本稿では,本論文について考察する。
1.VLMがこの概念の抽象化能力を持っている範囲、及び
2. VLMモデル(CLEAR GLASSモデル)の高概念情報を画像にエンコードする手法。
この目的のために,複数の画像キャプションからなるグループ化画像キャプチャデータセット(MAGIC)を導入し,各グループに対して,関連画像と高レベルの概念ラベルをセットする。
画像キャプチャー群の全メンバーに共通する情報をグループ内の各画像(キャプション)の表現にエンコードするために、新しいコントラッシブ・ロス・テクニックを用いてモデルを誘導する。
本研究の主な貢献は,テキスト画像のコントラクティブ・グループ(外部コントラスト・ロス)に基づくグループ化コントラスト・ロス関数と,グループ内のイメージ・キャプション・インスタンス間の距離を測定する内部損失である。
学習手法は,概念抽象能力を創発的能力として持つCLEAR GLASSモデルを生成する。
その代わりに、トレーニングはモデルに各イメージキャプチャーグループに対してセマンティック表現を作成し、潜在意味空間における上位概念のセマンティック表現に近づくように強制する。
本実験により,SOTAモデルと比較して抽象概念認識の改善を示すモデルが得られた。
関連論文リスト
- Data-Efficient Generalization for Zero-shot Composed Image Retrieval [67.46975191141928]
ZS-CIRは、トレーニングのために配布する三つ子を必要とせず、参照画像とテキスト記述に基づいて対象画像を検索することを目的としている。
1つの一般的なアプローチは、マッピングネットワークを用いてテキスト埋め込み空間内の擬似ワードトークンに画像埋め込みを転送するビジョン言語事前学習パラダイムである。
テキスト・サプリメント(TS)モジュールとセマンティック・セット(S-Set)という2つの新しい設計を含む,データ効率の一般化(DeG)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-07T07:49:31Z) - Image Embedding Sampling Method for Diverse Captioning [2.705107928847026]
本研究では,異なる画像領域に明示的に参加することで,キャプションの多様性と情報提供性を向上する学習自由フレームワークを提案する。
提案手法は,画像キャプションのアライメント,セマンティックな整合性,多様性の観点から,より大規模なモデルに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2025-02-14T12:33:19Z) - Discriminative Image Generation with Diffusion Models for Zero-Shot Learning [53.44301001173801]
ゼロショット学習のための新たな識別画像生成フレームワークであるDIG-ZSLを提案する。
我々は、事前学習されたカテゴリー識別モデル(CDM)の指導のもと、各未確認クラスの識別クラストークン(DCT)を学習する。
本稿では,4つのデータセットに対する広範な実験と可視化を行い,(1)多彩で高品質な画像を生成すること,(2)最先端の非人間アノテーション型セマンティックプロトタイプ手法を大きなマージンで上回ること,(3)人間アノテーションを利用したベースラインよりも同等あるいは優れた性能を実現すること,の4つが示される。
論文 参考訳(メタデータ) (2024-12-23T02:18:54Z) - Grounding Descriptions in Images informs Zero-Shot Visual Recognition [47.66166611138081]
我々は,表現を細かなレベルと粗いレベルの両方で同時に調整することを目的とした,新しい事前学習戦略であるGRAINを提案する。
我々は,現在の最先端技術と比較して,モデルのゼロショット性能の向上を実証する。
論文 参考訳(メタデータ) (2024-12-05T18:52:00Z) - Cross-Modal Concept Learning and Inference for Vision-Language Models [31.463771883036607]
既存の微調整法では、クラス固有のテキスト記述は画像全体と一致している。
我々は、クロスモデル概念学習と推論(CCLI)と呼ばれる新しい手法を開発した。
本手法は,意味テキストの集合を用いて画像から視覚的特徴の集合を自動的に学習する。
論文 参考訳(メタデータ) (2023-07-28T10:26:28Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - ACSeg: Adaptive Conceptualization for Unsupervised Semantic Segmentation [17.019848796027485]
自己教師付き視覚事前学習モデルでは,画素レベルの意味的関係を表現することに大きな期待が持たれている。
本研究では,自己学習モデルにおける画素レベルのセマンティックアグリゲーションを画像エンコードや設計概念として検討する。
本稿では,これらのプロトタイプを各画像に対する情報的概念に適応的にマッピングするアダプティブ・コンセプト・ジェネレータ(ACG)を提案する。
論文 参考訳(メタデータ) (2022-10-12T06:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。