論文の概要: Compositional Kronecker Context Optimization for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2403.11631v1
- Date: Mon, 18 Mar 2024 10:09:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 15:47:44.301645
- Title: Compositional Kronecker Context Optimization for Vision-Language Models
- Title(参考訳): 視覚言語モデルに対するコンポジションクロネッカー文脈最適化
- Authors: Kun Ding, Xiaohui Li, Qiang Yu, Ying Wang, Haojian Zhang, Shiming Xiang,
- Abstract要約: 合成クローネッカーコンテキスト最適化(CK-CoOp)と呼ばれる軽量で一般化可能な手法を提案する。
技術的には、CK-CoOpにおけるプロンプトの文脈語は学習可能なベクトルであり、辞書から派生したベースベクトルを線形に結合することによって構成される。
CK-CoOpは、ベース・ツー・ドメイン・クロスタスクの一般化評価において最先端の性能を達成する。
- 参考スコア(独自算出の注目度): 27.234863452965886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Context Optimization (CoOp) has emerged as a simple yet effective technique for adapting CLIP-like vision-language models to downstream image recognition tasks. Nevertheless, learning compact context with satisfactory base-to-new, domain and cross-task generalization ability while adapting to new tasks is still a challenge. To tackle such a challenge, we propose a lightweight yet generalizable approach termed Compositional Kronecker Context Optimization (CK-CoOp). Technically, the prompt's context words in CK-CoOp are learnable vectors, which are crafted by linearly combining base vectors sourced from a dictionary. These base vectors consist of a non-learnable component obtained by quantizing the weights in the token embedding layer, and a learnable component constructed by applying Kronecker product on several learnable tiny matrices. Intuitively, the compositional structure mitigates the risk of overfitting on training data by remembering more pre-trained knowledge. Meantime, the Kronecker product breaks the non-learnable restrictions of the dictionary, thereby enhancing representation ability with minimal additional parameters. Extensive experiments confirm that CK-CoOp achieves state-of-the-art performance under base-to-new, domain and cross-task generalization evaluation, but also has the metrics of fewer learnable parameters and efficient training and inference speed.
- Abstract(参考訳): コンテキスト最適化(CoOp)は、CLIPのような視覚言語モデルを下流の画像認識タスクに適用するための、シンプルで効果的な手法として登場した。
それでも、新しいタスクに適応しながら、満足のいくベース・ツー・ニュー、ドメイン・アンド・クロスタスクの一般化能力でコンパクトなコンテキストを学ぶことは依然として課題である。
このような課題に対処するために,コンポジションクロネッカーコンテキスト最適化 (CK-CoOp) と呼ばれる軽量で一般化可能な手法を提案する。
技術的には、CK-CoOpにおけるプロンプトの文脈語は学習可能なベクトルであり、辞書から派生したベースベクトルを線形に結合することによって構成される。
これらの基底ベクトルは、トークン埋め込み層内の重みを定量化した非学習可能成分と、クロネッカー積をいくつかの学習可能な微小行列に印加して構成した学習可能成分とからなる。
直感的には、構成構造は、より訓練済みの知識を記憶することで、トレーニングデータに過度に適合するリスクを軽減する。
時間とともに、クロネッカー積は辞書の学習不能な制限を破り、最小限の追加パラメータで表現能力を向上する。
拡張実験により、CK-CoOpは、ベース・ツー・ドメイン・クロスタスクの一般化評価において最先端の性能を達成するが、学習可能なパラメータが少なく、効率的なトレーニングと推論速度を持つ。
関連論文リスト
- Context-aware Prompt Tuning: Advancing In-Context Learning with Adversarial Methods [69.36397993451742]
In this work introduced Context-aware Prompt Tuning (CPT) - ICL, PT, and adversarial attack。
入力および出力フォーマットのユニークな構造を考慮して、特定のコンテキストトークンを変更する。
敵の攻撃にインスパイアされた我々は、損失を最大化するのではなく、最小化に焦点をあてて、コンテキストに存在するラベルに基づいて入力を調整する。
論文 参考訳(メタデータ) (2024-10-22T17:45:47Z) - Transformers are Minimax Optimal Nonparametric In-Context Learners [36.291980654891496]
大規模言語モデルのコンテキスト内学習は、いくつかの実証的な例から新しいタスクを学ぶのに驚くほど効果的な方法であることが証明されている。
我々は,ディープニューラルネットワークと1つの線形アテンション層からなる変圧器の近似および一般化誤差境界を開発する。
十分に訓練されたトランスフォーマーは、文脈における最小推定リスクを達成し、改善できることを示す。
論文 参考訳(メタデータ) (2024-08-22T08:02:10Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - CorDA: Context-Oriented Decomposition Adaptation of Large Language Models for Task-Aware Parameter-Efficient Fine-tuning [101.81127587760831]
現在の微調整手法は、学習すべき下流タスクのコンテキストや、維持すべき重要な知識のコンテキストに広く適用できるアダプタを構築している。
学習可能なタスク対応アダプタを構築するコンテキスト指向の分解適応手法であるCorDAを提案する。
本手法は,知識保存型適応と指導レビュー型適応の2つの選択肢を実現する。
論文 参考訳(メタデータ) (2024-06-07T19:10:35Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - Unifying Structure and Language Semantic for Efficient Contrastive
Knowledge Graph Completion with Structured Entity Anchors [0.3913403111891026]
知識グラフ補完(KGC)の目標は、すでに知られている訓練された事実を用いて、KGの欠落したリンクを予測することである。
本稿では,帰納的推論の力を失うことなく,構造情報と言語意味を効果的に統一する手法を提案する。
論文 参考訳(メタデータ) (2023-11-07T11:17:55Z) - Efficient IoT Inference via Context-Awareness [8.882680489254923]
我々は、スケーラブルで効率的な文脈認識分類のための新しいパラダイム、CACTUSを提案する。
我々は、CACTUSが、さまざまなデータセットやIoTプラットフォームにわたる正確性、レイテンシ、計算予算において、大きなメリットを達成していることを示す。
論文 参考訳(メタデータ) (2023-10-29T18:57:15Z) - Conditional Prompt Learning for Vision-Language Models [107.06776396086471]
近ごろ提案されたContext Optimization (CoOp) は、文脈単語をプロンプトで学習可能なベクトルの集合に変換する。
CoOpは、CoOpよりもはるかに優れたクラスを非表示に一般化し、単一のデータセットを超える有望な転送可能性を示している。
我々の実験によると、CoCoOpはCoOpよりもはるかに優れたクラスに一般化しており、単一のデータセットを超える有望な転送可能性を示している。
論文 参考訳(メタデータ) (2022-03-10T18:59:41Z) - A Trainable Optimal Transport Embedding for Feature Aggregation and its
Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。
我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文 参考訳(メタデータ) (2020-06-22T08:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。