Fugu-MT 論文翻訳(概要): Conceptual Codebook Learning for Vision-Language Models

論文の概要: Conceptual Codebook Learning for Vision-Language Models

arxiv url: http://arxiv.org/abs/2407.02350v2
Date: Fri, 5 Jul 2024 12:45:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-08 22:15:07.757188
Title: Conceptual Codebook Learning for Vision-Language Models
Title（参考訳）: 視覚言語モデルのための概念的コードブック学習
Authors: Yi Zhang, Ke Yu, Siqi Wu, Zhihai He,
Abstract要約: 視覚言語モデル(VLM)の一般化能力向上のためのCodebook Learning(CoCoLe)を提案する。視覚概念をキーとして,概念的プロンプトを値として,概念的コードブックを学習する。この概念的コードブック学習法は,視覚的・言語的モダリティの高度化を実現することができる。
参考スコア（独自算出の注目度）: 27.68834532978939
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we propose Conceptual Codebook Learning (CoCoLe), a novel fine-tuning method for vision-language models (VLMs) to address the challenge of improving the generalization capability of VLMs while fine-tuning them on downstream tasks in a few-shot setting. We recognize that visual concepts, such as textures, shapes, and colors are naturally transferable across domains and play a crucial role in generalization tasks. Motivated by this interesting finding, we learn a conceptual codebook consisting of visual concepts as keys and conceptual prompts as values, which serves as a link between the image encoder's outputs and the text encoder's inputs. Specifically, for a given image, we leverage the codebook to identify the most relevant conceptual prompts associated with the class embeddings to perform the classification. Additionally, we incorporate a handcrafted concept cache as a regularization to alleviate the overfitting issues in low-shot scenarios. We observe that this conceptual codebook learning method is able to achieve enhanced alignment between visual and linguistic modalities. Extensive experimental results demonstrate that our CoCoLe method remarkably outperforms the existing state-of-the-art methods across various evaluation settings, including base-to-new generalization, cross-dataset evaluation, and domain generalization tasks. Detailed ablation studies further confirm the efficacy of each component in CoCoLe.
Abstract（参考訳）: 本稿では,視覚言語モデル(VLM)の新しい微調整手法であるConceptual Codebook Learning (CoCoLe)を提案する。我々は、テクスチャ、形状、色といった視覚概念が自然にドメイン間で伝達可能であり、一般化タスクにおいて重要な役割を果たすことを認識している。この興味深い発見に触発されて、視覚概念をキーとして、概念的プロンプトを値として、概念的コードブックを学習し、画像エンコーダの出力とテキストエンコーダの入力とのリンクとして機能する。具体的には、与えられた画像に対して、コードブックを利用して、クラス埋め込みに関連する最も関連性の高い概念的プロンプトを特定し、分類を実行する。さらに、ローショットシナリオにおける過度な問題を軽減するために、手作りのコンセプトキャッシュを正規化として組み込んだ。この概念的コードブック学習法は,視覚的・言語的モダリティの高度化を実現することができる。実験の結果,CoCoLe法は,ベース・ツー・ニューな一般化,クロス・データセット評価,ドメイン一般化タスクなど,さまざまな評価設定において,既存の最先端手法よりも著しく優れていた。詳細なアブレーション研究により、CoCoLeの各成分の有効性がさらに確認された。

関連論文リスト

Insight: Interpretable Semantic Hierarchies in Vision-Language Encoders [52.94006363830628]
言語対応の視覚基盤モデルは、下流の様々なタスクで強く機能する。近年の研究では、これらの表現を人間の解釈可能な概念に分解するが、空間的接地が乏しく、画像分類に限られている。入力画像に人間が解釈可能で空間的に接地した、きめ細かい概念を提供する言語対応概念基盤モデルであるInsightを提案する。
論文参考訳（メタデータ） (2026-01-20T09:57:26Z)
FaCT: Faithful Concept Traces for Explaining Neural Network Decisions [56.796533084868884]
ディープネットワークは、幅広いタスクで顕著なパフォーマンスを示しているが、それらの機能に関するグローバルな概念レベルの理解は、依然として重要な課題である。本稿では,概念に基づく説明の忠実さを強調し,モデル独立な機械的概念説明を用いた新しいモデルを提案する。私たちの概念はクラス間で共有され、あらゆるレイヤから、ロジットへの貢献と入力-視覚化を忠実にトレースすることができます。
論文参考訳（メタデータ） (2025-10-29T13:35:46Z)
Vision-Free Retrieval: Rethinking Multimodal Search with Textual Scene Descriptions [81.33113485830711]
視覚言語モデルに対して,視覚のない単一エンコーダ検索パイプラインを導入する。 VLLM生成した構造化画像記述の助けを借りてテキストからテキストへ移行する。提案手法は,複数検索および構成性ベンチマークにおいて,最先端のゼロショット性能を実現する。
論文参考訳（メタデータ） (2025-09-23T16:22:27Z)
Mod-Adapter: Tuning-Free and Versatile Multi-concept Personalization via Modulation Adapter [52.08332620725473]
テストタイムの微調整なしにオブジェクトと抽象概念を効果的にカスタマイズできるマルチコンセプトパーソナライズのためのチューニング不要な手法を提案する。本手法は, 定量的, 質的, 人的評価によって支援された多概念パーソナライゼーションにおける最先端性能を実現する。
論文参考訳（メタデータ） (2025-05-24T09:21:32Z)
Self-Evolving Visual Concept Library using Vision-Language Critics [38.15146001218907]
手動による定義が労働集約的であるため、効果的なビジュアル概念ライブラリの構築は困難である。我々のアプローチであるESCHERは、視覚概念を反復的に発見し、改善するためのライブラリ学習の視点を採っている。我々は、ゼロショット、少数ショット、微調整の視覚的分類タスクのための概念ライブラリをESCHERが学習できることを実証的に示す。
論文参考訳（メタデータ） (2025-03-31T19:47:55Z)
Visual and Semantic Prompt Collaboration for Generalized Zero-Shot Learning [58.73625654718187]
一般化されたゼロショット学習は、異なるクラス間で共有される意味情報の助けを借りて、目に見えないクラスと見えないクラスの両方を認識することを目的としている。既存のアプローチでは、視覚的バックボーンをルッククラスのデータで微調整し、セマンティックな視覚的特徴を得る。本稿では,効率的な特徴適応のためのプロンプトチューニング技術を活用した,視覚的・意味的プロンプト協調フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-29T10:17:57Z)
Knowledge Transfer Across Modalities with Natural Language Supervision [8.493435472659646]
我々は,文章記述のみを用いて新しい概念を学習する方法を提示する。人間の知覚と同様に,異種間相互作用を活用して新しい概念を導入する。知識伝達は, マルチモーダルモデルにおける新しい概念を, 極めて効率的な方法で導入できることを示す。
論文参考訳（メタデータ） (2024-11-23T17:26:50Z)
Improving Concept Alignment in Vision-Language Concept Bottleneck Models [9.228586820098723]
概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、クラス予測を行う前に、イメージを人間の解釈可能な概念にマッピングする。近年のアプローチでは、大規模言語モデル(LLM)にテキスト概念の生成を促すことでCBM構築を自動化する。 LLMによって生成されたものよりも、人間の専門家によって定義された概念でCBMを構築することが望まれる。
論文参考訳（メタデータ） (2024-05-03T03:02:00Z)
Enhancing Visual Document Understanding with Contrastive Learning in Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。 DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文参考訳（メタデータ） (2024-02-29T10:17:27Z)
Concept-Guided Prompt Learning for Generalization in Vision-Language Models [33.361744437967126]
視覚言語モデルのための概念ガイド型プロンプト学習を提案する。 Contrastive Language-Image Pretrainingの知識を活用して、ビジュアルコンセプトキャッシュを作成します。テキスト特徴を洗練させるために,多段階の視覚特徴をテキスト特徴に変換するプロジェクタを開発する。
論文参考訳（メタデータ） (2024-01-15T04:04:47Z)
Advancing Ante-Hoc Explainable Models through Generative Adversarial Networks [24.45212348373868]
本稿では,視覚的分類タスクにおけるモデル解釈可能性と性能を向上させるための新しい概念学習フレームワークを提案する。本手法では, 教師なし説明生成器を一次分類器ネットワークに付加し, 対角訓練を利用する。この研究は、タスク整合概念表現を用いた本質的に解釈可能なディープビジョンモデルを構築するための重要なステップを示す。
論文参考訳（メタデータ） (2024-01-09T16:16:16Z)
Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models [64.24227572048075]
本稿では,視覚言語モデルのためのKnowledge-Aware Prompt Tuning(KAPT)フレームワークを提案する。我々のアプローチは、人間の知性からインスピレーションを得ており、外部知識は、通常、オブジェクトの新たなカテゴリを認識するために組み込まれています。
論文参考訳（メタデータ） (2023-08-22T04:24:45Z)
Cross-Modal Concept Learning and Inference for Vision-Language Models [31.463771883036607]
既存の微調整法では、クラス固有のテキスト記述は画像全体と一致している。我々は、クロスモデル概念学習と推論(CCLI)と呼ばれる新しい手法を開発した。本手法は,意味テキストの集合を用いて画像から視覚的特徴の集合を自動的に学習する。
論文参考訳（メタデータ） (2023-07-28T10:26:28Z)
ConceptBed: Evaluating Concept Learning Abilities of Text-to-Image Diffusion Models [79.10890337599166]
本研究では,284のユニークな視覚概念と33Kの合成テキストプロンプトからなる大規模データセットであるConceptBedを紹介する。我々は、対象、属性、スタイルのいずれかである視覚概念を評価し、また、構成性の4つの次元(計数、属性、関係、行動)を評価する。私たちの結果は、概念を学ぶことと、既存のアプローチが克服に苦労する構成性を維持することのトレードオフを示しています。
論文参考訳（メタデータ） (2023-06-07T18:00:38Z)
SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。 SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。 13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文参考訳（メタデータ） (2022-11-28T14:58:15Z)
K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文参考訳（メタデータ） (2022-04-20T04:47:01Z)
Concept Learners for Few-Shot Learning [76.08585517480807]
本研究では,人間の解釈可能な概念次元に沿って学習することで,一般化能力を向上させるメタ学習手法であるCOMETを提案する。我々は,細粒度画像分類,文書分類,セルタイプアノテーションなど,さまざまな領域からの少数ショットタスクによるモデルの評価を行った。
論文参考訳（メタデータ） (2020-07-14T22:04:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。