Fugu-MT 論文翻訳(概要): Compositional Kronecker Context Optimization for Vision-Language Models

論文の概要: Compositional Kronecker Context Optimization for Vision-Language Models

arxiv url: http://arxiv.org/abs/2403.11631v1
Date: Mon, 18 Mar 2024 10:09:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-19 15:47:44.301645
Title: Compositional Kronecker Context Optimization for Vision-Language Models
Title（参考訳）: 視覚言語モデルに対するコンポジションクロネッカー文脈最適化
Authors: Kun Ding, Xiaohui Li, Qiang Yu, Ying Wang, Haojian Zhang, Shiming Xiang,
Abstract要約: 合成クローネッカーコンテキスト最適化(CK-CoOp)と呼ばれる軽量で一般化可能な手法を提案する。技術的には、CK-CoOpにおけるプロンプトの文脈語は学習可能なベクトルであり、辞書から派生したベースベクトルを線形に結合することによって構成される。 CK-CoOpは、ベース・ツー・ドメイン・クロスタスクの一般化評価において最先端の性能を達成する。
参考スコア（独自算出の注目度）: 27.234863452965886
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Context Optimization (CoOp) has emerged as a simple yet effective technique for adapting CLIP-like vision-language models to downstream image recognition tasks. Nevertheless, learning compact context with satisfactory base-to-new, domain and cross-task generalization ability while adapting to new tasks is still a challenge. To tackle such a challenge, we propose a lightweight yet generalizable approach termed Compositional Kronecker Context Optimization (CK-CoOp). Technically, the prompt's context words in CK-CoOp are learnable vectors, which are crafted by linearly combining base vectors sourced from a dictionary. These base vectors consist of a non-learnable component obtained by quantizing the weights in the token embedding layer, and a learnable component constructed by applying Kronecker product on several learnable tiny matrices. Intuitively, the compositional structure mitigates the risk of overfitting on training data by remembering more pre-trained knowledge. Meantime, the Kronecker product breaks the non-learnable restrictions of the dictionary, thereby enhancing representation ability with minimal additional parameters. Extensive experiments confirm that CK-CoOp achieves state-of-the-art performance under base-to-new, domain and cross-task generalization evaluation, but also has the metrics of fewer learnable parameters and efficient training and inference speed.
Abstract（参考訳）: コンテキスト最適化(CoOp)は、CLIPのような視覚言語モデルを下流の画像認識タスクに適用するための、シンプルで効果的な手法として登場した。それでも、新しいタスクに適応しながら、満足のいくベース・ツー・ニュー、ドメイン・アンド・クロスタスクの一般化能力でコンパクトなコンテキストを学ぶことは依然として課題である。このような課題に対処するために,コンポジションクロネッカーコンテキスト最適化 (CK-CoOp) と呼ばれる軽量で一般化可能な手法を提案する。技術的には、CK-CoOpにおけるプロンプトの文脈語は学習可能なベクトルであり、辞書から派生したベースベクトルを線形に結合することによって構成される。これらの基底ベクトルは、トークン埋め込み層内の重みを定量化した非学習可能成分と、クロネッカー積をいくつかの学習可能な微小行列に印加して構成した学習可能成分とからなる。直感的には、構成構造は、より訓練済みの知識を記憶することで、トレーニングデータに過度に適合するリスクを軽減する。時間とともに、クロネッカー積は辞書の学習不能な制限を破り、最小限の追加パラメータで表現能力を向上する。拡張実験により、CK-CoOpは、ベース・ツー・ドメイン・クロスタスクの一般化評価において最先端の性能を達成するが、学習可能なパラメータが少なく、効率的なトレーニングと推論速度を持つ。

関連論文リスト

Prompt-OT: An Optimal Transport Regularization Paradigm for Knowledge Preservation in Vision-Language Model Adaptation [5.296260279593993]
CLIPのような視覚言語モデル(VLM)は、強力なパフォーマンスを示すが、下流タスクに適応する際には苦労する。本稿では,特徴分布の構造的整合性を保つことにより,忘れを軽減できる最適トランスポート(OT)誘導型プロンプト学習フレームワークを提案する。提案手法は,視覚とテキスト表現の両面に制約を課し,全体的な特徴の整合性を確保する。
論文参考訳（メタデータ） (2025-03-11T21:38:34Z)
SoTCKGE:Continual Knowledge Graph Embedding Based on Spatial Offset Transformation [7.706481522285466]
現在、CKGE(Continuous Knowledge Graph Embedding)メソッドは翻訳ベースの埋め込み方式に依存している。本研究では,空間オフセット変換ベクトルに基づく新しいCKGEフレームワークを提案する。パラメータ更新処理を洗練させるために,階層的な更新戦略とバランスの取れた埋め込み手法を導入する。
論文参考訳（メタデータ） (2025-03-11T08:54:03Z)
Context-aware Prompt Tuning: Advancing In-Context Learning with Adversarial Methods [69.36397993451742]
In this work introduced Context-aware Prompt Tuning (CPT) - ICL, PT, and adversarial attack。入力および出力フォーマットのユニークな構造を考慮して、特定のコンテキストトークンを変更する。敵の攻撃にインスパイアされた我々は、損失を最大化するのではなく、最小化に焦点をあてて、コンテキストに存在するラベルに基づいて入力を調整する。
論文参考訳（メタデータ） (2024-10-22T17:45:47Z)
Transformers are Minimax Optimal Nonparametric In-Context Learners [36.291980654891496]
大規模言語モデルのコンテキスト内学習は、いくつかの実証的な例から新しいタスクを学ぶのに驚くほど効果的な方法であることが証明されている。我々は,ディープニューラルネットワークと1つの線形アテンション層からなる変圧器の近似および一般化誤差境界を開発する。十分に訓練されたトランスフォーマーは、文脈における最小推定リスクを達成し、改善できることを示す。
論文参考訳（メタデータ） (2024-08-22T08:02:10Z)
Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文参考訳（メタデータ） (2024-07-11T10:35:53Z)
CorDA: Context-Oriented Decomposition Adaptation of Large Language Models for Task-Aware Parameter-Efficient Fine-tuning [101.81127587760831]
現在の微調整手法は、学習すべき下流タスクのコンテキストや、維持すべき重要な知識のコンテキストに広く適用できるアダプタを構築している。学習可能なタスク対応アダプタを構築するコンテキスト指向の分解適応手法であるCorDAを提案する。本手法は,知識保存型適応と指導レビュー型適応の2つの選択肢を実現する。
論文参考訳（メタデータ） (2024-06-07T19:10:35Z)
Contextualization Distillation from Large Language Model for Knowledge Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文参考訳（メタデータ） (2024-01-28T08:56:49Z)
Unifying Structure and Language Semantic for Efficient Contrastive Knowledge Graph Completion with Structured Entity Anchors [0.3913403111891026]
知識グラフ補完(KGC)の目標は、すでに知られている訓練された事実を用いて、KGの欠落したリンクを予測することである。本稿では,帰納的推論の力を失うことなく,構造情報と言語意味を効果的に統一する手法を提案する。
論文参考訳（メタデータ） (2023-11-07T11:17:55Z)
Efficient IoT Inference via Context-Awareness [8.882680489254923]
我々は、スケーラブルで効率的な文脈認識分類のための新しいパラダイム、CACTUSを提案する。我々は、CACTUSが、さまざまなデータセットやIoTプラットフォームにわたる正確性、レイテンシ、計算予算において、大きなメリットを達成していることを示す。
論文参考訳（メタデータ） (2023-10-29T18:57:15Z)
Conditional Prompt Learning for Vision-Language Models [107.06776396086471]
近ごろ提案されたContext Optimization (CoOp) は、文脈単語をプロンプトで学習可能なベクトルの集合に変換する。 CoOpは、CoOpよりもはるかに優れたクラスを非表示に一般化し、単一のデータセットを超える有望な転送可能性を示している。我々の実験によると、CoCoOpはCoOpよりもはるかに優れたクラスに一般化しており、単一のデータセットを超える有望な転送可能性を示している。
論文参考訳（メタデータ） (2022-03-10T18:59:41Z)
A Trainable Optimal Transport Embedding for Feature Aggregation and its Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文参考訳（メタデータ） (2020-06-22T08:35:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。