論文の概要: A Survey of Low-shot Vision-Language Model Adaptation via Representer Theorem
- arxiv url: http://arxiv.org/abs/2410.11686v1
- Date: Tue, 15 Oct 2024 15:22:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:02:07.054390
- Title: A Survey of Low-shot Vision-Language Model Adaptation via Representer Theorem
- Title(参考訳): Representer Theorem を用いた低ショットビジョン言語モデル適応の検討
- Authors: Kun Ding, Ying Wang, Gaofeng Meng, Shiming Xiang,
- Abstract要約: 限られた訓練データの条件下で対処する主な課題は、パラメータ効率のよい方法で事前訓練された視覚言語モデルを微調整する方法である。
本稿では,既存の手法を統合化し,それらの性質を同定し,詳細な比較を支援するための統一的な計算フレームワークを提案する。
実演として、カーネルヒルベルト空間(RKHS)における表現子間のクラス間相関をモデル化し、既存の手法を拡張した。
- 参考スコア(独自算出の注目度): 38.84662767814454
- License:
- Abstract: The advent of pre-trained vision-language foundation models has revolutionized the field of zero/few-shot (i.e., low-shot) image recognition. The key challenge to address under the condition of limited training data is how to fine-tune pre-trained vision-language models in a parameter-efficient manner. Previously, numerous approaches tackling this challenge have been proposed. Meantime, a few survey papers are also published to summarize these works. However, there still lacks a unified computational framework to integrate existing methods together, identify their nature and support in-depth comparison. As such, this survey paper first proposes a unified computational framework from the perspective of Representer Theorem and then derives many of the existing methods by specializing this framework. Thereafter, a comparative analysis is conducted to uncover the differences and relationships between existing methods. Based on the analyses, some possible variants to improve the existing works are presented. As a demonstration, we extend existing methods by modeling inter-class correlation between representers in reproducing kernel Hilbert space (RKHS), which is implemented by exploiting the closed-form solution of kernel ridge regression. Extensive experiments on 11 datasets are conducted to validate the effectiveness of this method. Toward the end of this paper, we discuss the limitations and provide further research directions.
- Abstract(参考訳): 事前訓練された視覚言語基盤モデルの出現は、ゼロ/フェーショット(低ショット)画像認識の分野に革命をもたらした。
限られたトレーニングデータの条件下で対処する上で重要な課題は、パラメータ効率のよい方法で事前学習された視覚言語モデルを微調整する方法である。
これまで、この問題に対処する多くのアプローチが提案されてきた。
いずれにせよ、これらの研究を要約するためにいくつかの調査論文も出版されている。
しかし、既存のメソッドを統合し、それらの性質を特定し、詳細な比較をサポートする統一的な計算フレームワークがまだ存在しない。
そこで本研究ではまず,Representer Theoremの観点から統一的な計算フレームワークを提案し,そのフレームワークを専門化することによって既存の手法の多くを導出する。
その後,既存手法の違いと関係を明らかにするために比較分析を行った。
分析に基づき、既存の作品を改善するためのいくつかのバリエーションが提示される。
実演として,カーネルリッジ回帰の閉形式解を利用して実装されたカーネルヒルベルト空間(RKHS)における表現子間のクラス間相関をモデル化し,既存の手法を拡張した。
本手法の有効性を検証するため,11個のデータセットの大規模な実験を行った。
本稿では,その限界について論じ,さらなる研究の方向性を示す。
関連論文リスト
- Constrained Reinforcement Learning with Average Reward Objective: Model-Based and Model-Free Algorithms [34.593772931446125]
モノグラフは、平均報酬決定過程(MDPs)の文脈内で制約された様々なモデルベースおよびモデルフリーアプローチの探索に焦点を当てている
このアルゴリズムは制約付きMDPの解法として検討されている。
論文 参考訳(メタデータ) (2024-06-17T12:46:02Z) - Detecting Statements in Text: A Domain-Agnostic Few-Shot Solution [1.3654846342364308]
最先端のアプローチは通常、作成にコストがかかる大規模な注釈付きデータセット上の微調整モデルを含む。
本稿では,クレームに基づくテキスト分類タスクの共通パラダイムとして,定性的で多目的な少ショット学習手法の提案とリリースを行う。
本手法は,気候変動対策,トピック/スタンス分類,うつ病関連症状検出の3つの課題の文脈で説明する。
論文 参考訳(メタデータ) (2024-05-09T12:03:38Z) - Differentiable Retrieval Augmentation via Generative Language Modeling
for E-commerce Query Intent Classification [8.59563091603226]
本稿では,この問題を解決するために,ジェネレーティブなLanguageモデリング(Dragan)による識別可能な検索拡張を提案する。
本稿では,eコマース検索における難解なNLPタスク,すなわちクエリ意図分類における提案手法の有効性を示す。
論文 参考訳(メタデータ) (2023-08-18T05:05:35Z) - Deep Generative Models for Decision-Making and Control [4.238809918521607]
この論文の2つの目的は、これらの欠点の理由を研究し、未解決問題に対する解決策を提案することである。
本稿では、ビームサーチを含む現代の生成モデリングツールボックスからの推論手法を、強化学習問題のための実行可能な計画戦略として再解釈する方法について述べる。
論文 参考訳(メタデータ) (2023-06-15T01:54:30Z) - CREST: A Joint Framework for Rationalization and Counterfactual Text
Generation [5.606679908174783]
我々は選択的合理化と対実テキスト生成のためのフレームワークであるCREST(ContRastive Edits with Sparse raTionalization)を紹介する。
CRESTは、従来の方法よりも自然な有効な偽物を生成する。
CRESTのカウンターファクトを利用して選択的論理を規則化する新たな損失関数は、モデルの堅牢性と合理性の両方を改善します。
論文 参考訳(メタデータ) (2023-05-26T16:34:58Z) - Diffusion Action Segmentation [63.061058214427085]
本稿では,このような反復的洗練の本質的な精神を共用した拡散モデルによる新しい枠組みを提案する。
このフレームワークでは、入力された映像の特徴を条件としてランダムノイズから行動予測を反復的に生成する。
論文 参考訳(メタデータ) (2023-03-31T10:53:24Z) - IRGen: Generative Modeling for Image Retrieval [82.62022344988993]
本稿では,画像検索を生成モデルの一種として再フレーミングする新しい手法を提案する。
我々は、イメージを意味単位の簡潔なシーケンスに変換するという技術的課題に対処するため、IRGenと呼ばれるモデルを開発した。
本モデルは,広範に使用されている3つの画像検索ベンチマークと200万件のデータセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-17T17:07:36Z) - Attentional Prototype Inference for Few-Shot Segmentation [128.45753577331422]
数発のセグメンテーションのための確率的潜在変数フレームワークである注意型プロトタイプ推論(API)を提案する。
我々は各オブジェクトカテゴリのプロトタイプを表現するためにグローバル潜在変数を定義し、確率分布としてモデル化する。
我々は4つのベンチマークで広範な実験を行い、提案手法は最先端のプロトタイプベースの手法よりも、少なくとも競争力があり、しばしば優れた性能が得られる。
論文 参考訳(メタデータ) (2021-05-14T06:58:44Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - How Far are We from Effective Context Modeling? An Exploratory Study on
Semantic Parsing in Context [59.13515950353125]
文法に基づく意味解析を行い,その上に典型的な文脈モデリング手法を適用する。
我々は,2つの大きなクロスドメインデータセットに対して,13のコンテキストモデリング手法を評価した。
論文 参考訳(メタデータ) (2020-02-03T11:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。