論文の概要: Compositional Kronecker Context Optimization for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2403.11631v1
- Date: Mon, 18 Mar 2024 10:09:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 15:47:44.301645
- Title: Compositional Kronecker Context Optimization for Vision-Language Models
- Title(参考訳): 視覚言語モデルに対するコンポジションクロネッカー文脈最適化
- Authors: Kun Ding, Xiaohui Li, Qiang Yu, Ying Wang, Haojian Zhang, Shiming Xiang,
- Abstract要約: 合成クローネッカーコンテキスト最適化(CK-CoOp)と呼ばれる軽量で一般化可能な手法を提案する。
技術的には、CK-CoOpにおけるプロンプトの文脈語は学習可能なベクトルであり、辞書から派生したベースベクトルを線形に結合することによって構成される。
CK-CoOpは、ベース・ツー・ドメイン・クロスタスクの一般化評価において最先端の性能を達成する。
- 参考スコア(独自算出の注目度): 27.234863452965886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Context Optimization (CoOp) has emerged as a simple yet effective technique for adapting CLIP-like vision-language models to downstream image recognition tasks. Nevertheless, learning compact context with satisfactory base-to-new, domain and cross-task generalization ability while adapting to new tasks is still a challenge. To tackle such a challenge, we propose a lightweight yet generalizable approach termed Compositional Kronecker Context Optimization (CK-CoOp). Technically, the prompt's context words in CK-CoOp are learnable vectors, which are crafted by linearly combining base vectors sourced from a dictionary. These base vectors consist of a non-learnable component obtained by quantizing the weights in the token embedding layer, and a learnable component constructed by applying Kronecker product on several learnable tiny matrices. Intuitively, the compositional structure mitigates the risk of overfitting on training data by remembering more pre-trained knowledge. Meantime, the Kronecker product breaks the non-learnable restrictions of the dictionary, thereby enhancing representation ability with minimal additional parameters. Extensive experiments confirm that CK-CoOp achieves state-of-the-art performance under base-to-new, domain and cross-task generalization evaluation, but also has the metrics of fewer learnable parameters and efficient training and inference speed.
- Abstract(参考訳): コンテキスト最適化(CoOp)は、CLIPのような視覚言語モデルを下流の画像認識タスクに適用するための、シンプルで効果的な手法として登場した。
それでも、新しいタスクに適応しながら、満足のいくベース・ツー・ニュー、ドメイン・アンド・クロスタスクの一般化能力でコンパクトなコンテキストを学ぶことは依然として課題である。
このような課題に対処するために,コンポジションクロネッカーコンテキスト最適化 (CK-CoOp) と呼ばれる軽量で一般化可能な手法を提案する。
技術的には、CK-CoOpにおけるプロンプトの文脈語は学習可能なベクトルであり、辞書から派生したベースベクトルを線形に結合することによって構成される。
これらの基底ベクトルは、トークン埋め込み層内の重みを定量化した非学習可能成分と、クロネッカー積をいくつかの学習可能な微小行列に印加して構成した学習可能成分とからなる。
直感的には、構成構造は、より訓練済みの知識を記憶することで、トレーニングデータに過度に適合するリスクを軽減する。
時間とともに、クロネッカー積は辞書の学習不能な制限を破り、最小限の追加パラメータで表現能力を向上する。
拡張実験により、CK-CoOpは、ベース・ツー・ドメイン・クロスタスクの一般化評価において最先端の性能を達成するが、学習可能なパラメータが少なく、効率的なトレーニングと推論速度を持つ。
関連論文リスト
- Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - Unifying Structure and Language Semantic for Efficient Contrastive
Knowledge Graph Completion with Structured Entity Anchors [0.3913403111891026]
知識グラフ補完(KGC)の目標は、すでに知られている訓練された事実を用いて、KGの欠落したリンクを予測することである。
本稿では,帰納的推論の力を失うことなく,構造情報と言語意味を効果的に統一する手法を提案する。
論文 参考訳(メタデータ) (2023-11-07T11:17:55Z) - Efficient IoT Inference via Context-Awareness [8.882680489254923]
我々は、スケーラブルで効率的な文脈認識分類のための新しいパラダイム、CACTUSを提案する。
我々は、CACTUSが、さまざまなデータセットやIoTプラットフォームにわたる正確性、レイテンシ、計算予算において、大きなメリットを達成していることを示す。
論文 参考訳(メタデータ) (2023-10-29T18:57:15Z) - Hierarchical Deep Counterfactual Regret Minimization [53.86223883060367]
本稿では,大規模な状態空間や深部ゲームツリーを含むタスクにおいて,学習効率を向上させる革新的な手法であるDeep CFRの最初の階層バージョンを紹介する。
HDCFRのこれまでの研究よりも顕著な利点は、事前に定義された(人間的な)専門知識による学習の促進と、同様のタスクに移行可能なスキルの獲得を促進する能力である。
論文 参考訳(メタデータ) (2023-05-27T02:05:41Z) - Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal
Structured Representations [70.41385310930846]
マルチモーダルな構造表現を強化するためのエンドツーエンドフレームワークであるStructure-CLIPを提案する。
シーングラフを用いてセマンティックなネガティブな例の構築をガイドし、その結果、構造化された表現の学習に重点を置いている。
知識エンハンス(KEE)は、SGKを入力として活用し、構造化表現をさらに強化するために提案される。
論文 参考訳(メタデータ) (2023-05-06T03:57:05Z) - Contextual Squeeze-and-Excitation for Efficient Few-Shot Image
Classification [57.36281142038042]
本稿では,事前学習したニューラルネットワークを新しいタスクで調整し,性能を大幅に向上させる,Contextual Squeeze-and-Excitation (CaSE) という適応ブロックを提案する。
また、メタトレーニングされたCaSEブロックと微調整ルーチンを利用して効率よく適応する、アッパーCaSEと呼ばれるコーディネートダイスに基づく新しいトレーニングプロトコルを提案する。
論文 参考訳(メタデータ) (2022-06-20T15:25:08Z) - Conditional Prompt Learning for Vision-Language Models [107.06776396086471]
近ごろ提案されたContext Optimization (CoOp) は、文脈単語をプロンプトで学習可能なベクトルの集合に変換する。
CoOpは、CoOpよりもはるかに優れたクラスを非表示に一般化し、単一のデータセットを超える有望な転送可能性を示している。
我々の実験によると、CoCoOpはCoOpよりもはるかに優れたクラスに一般化しており、単一のデータセットを超える有望な転送可能性を示している。
論文 参考訳(メタデータ) (2022-03-10T18:59:41Z) - Sparsely ensembled convolutional neural network classifiers via
reinforcement learning [0.0]
畳み込みニューラルネットワーク(CNN)は,最小動作原理にインスパイアされた目的関数で学習する。
我々はエージェントに事前学習した分類器の集合を通してイメージを知覚するように教え、その結果、動的に構成されたシステムに計算グラフを展開させたい。
実験の結果,エージェントが計算の動的(および文脈に依存した)構造を利用すると,従来のアンサンブル学習よりも優れることがわかった。
論文 参考訳(メタデータ) (2021-02-07T21:26:57Z) - A Trainable Optimal Transport Embedding for Feature Aggregation and its
Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。
我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文 参考訳(メタデータ) (2020-06-22T08:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。