論文の概要: Learning Customized Visual Models with Retrieval-Augmented Knowledge
- arxiv url: http://arxiv.org/abs/2301.07094v1
- Date: Tue, 17 Jan 2023 18:59:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 13:17:19.815923
- Title: Learning Customized Visual Models with Retrieval-Augmented Knowledge
- Title(参考訳): 検索型知識を用いたカスタマイズ視覚モデル学習
- Authors: Haotian Liu, Kilho Son, Jianwei Yang, Ce Liu, Jianfeng Gao, Yong Jae
Lee, Chunyuan Li
- Abstract要約: 我々は、ターゲットドメイン用にカスタマイズされたビジュアルモデルを構築するための、関連するWeb知識を取得するためのフレームワークであるREACTを提案する。
我々は、Webスケールデータベースから最も関連性の高い画像テキストペアを外部知識として検索し、元の重みをすべて凍結しながら、新しいモジュール化されたブロックをトレーニングするだけで、モデルをカスタマイズすることを提案する。
REACTの有効性は、ゼロ、少数、フルショット設定を含む分類、検索、検出、セグメンテーションタスクに関する広範な実験を通じて実証される。
- 参考スコア(独自算出の注目度): 104.05456849611895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image-text contrastive learning models such as CLIP have demonstrated strong
task transfer ability. The high generality and usability of these visual models
is achieved via a web-scale data collection process to ensure broad concept
coverage, followed by expensive pre-training to feed all the knowledge into
model weights. Alternatively, we propose REACT, REtrieval-Augmented
CusTomization, a framework to acquire the relevant web knowledge to build
customized visual models for target domains. We retrieve the most relevant
image-text pairs (~3% of CLIP pre-training data) from the web-scale database as
external knowledge, and propose to customize the model by only training new
modualized blocks while freezing all the original weights. The effectiveness of
REACT is demonstrated via extensive experiments on classification, retrieval,
detection and segmentation tasks, including zero, few, and full-shot settings.
Particularly, on the zero-shot classification task, compared with CLIP, it
achieves up to 5.4% improvement on ImageNet and 3.7% on the ELEVATER benchmark
(20 datasets).
- Abstract(参考訳): CLIPのような画像テキストコントラスト学習モデルは、強いタスク転送能力を示している。
これらのビジュアルモデルの高い汎用性と使いやすさは、幅広い概念のカバレッジを確保するために、webスケールのデータ収集プロセスを通じて達成されます。
また、関連するweb知識を取得して、ターゲットドメイン用にカスタマイズされたビジュアルモデルを構築するためのフレームワークであるreact, search-augmented customizationを提案する。
webスケールデータベースから最も関連性の高い画像テキストペア(約3%のクリップ事前学習データ)を外部知識として抽出し、元の重みを凍結しながら、新しいモーフィラライズドブロックをトレーニングするだけでモデルをカスタマイズすることを提案する。
REACTの有効性は、ゼロ、少数、フルショット設定を含む分類、検索、検出、セグメンテーションタスクに関する広範な実験を通じて実証される。
特にゼロショット分類タスクでは、クリップと比較してimagenetで5.4%、elevaterベンチマーク(20データセット)で3.7%改善されている。
関連論文リスト
- Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Multi-method Integration with Confidence-based Weighting for Zero-shot Image Classification [1.7265013728931]
本稿では,ゼロショット学習(ZSL)のための新しいフレームワークを提案する。
本稿では,ZSLを扱うためのモデルの性能向上のための3つの戦略を提案する。
論文 参考訳(メタデータ) (2024-05-03T15:02:41Z) - Raising the Bar of AI-generated Image Detection with CLIP [50.345365081177555]
本研究の目的は、AI生成画像の普遍的検出のための事前学習された視覚言語モデル(VLM)の可能性を探ることである。
我々は,CLIP機能に基づく軽量な検出戦略を開発し,その性能を様々な難易度シナリオで検証する。
論文 参考訳(メタデータ) (2023-11-30T21:11:20Z) - CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。
モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。
この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文 参考訳(メタデータ) (2023-10-21T20:20:13Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Boosting Visual-Language Models by Exploiting Hard Samples [126.35125029639168]
HELIPは、既存のCLIPモデルの性能を高めるための費用対効果戦略である。
我々の方法では、既存のモデルのトレーニングパイプラインと懸命に統合できます。
包括的なベンチマークでは、HELIPはパフォーマンス向上のために既存のモデルを継続的に強化する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - One-Time Model Adaptation to Heterogeneous Clients: An Intra-Client and
Inter-Image Attention Design [40.97593636235116]
既存のバックボーン認識モデルに新たなICIIAモジュールを提案する。
特に、特定のクライアントからのターゲット画像が与えられた場合、ICIIAはクライアントの歴史的未ラベル画像から関連画像を取得するために、マルチヘッド自己アテンションを導入する。
ICIIAを5つの代表的なデータセットに対して9つのバックボーンモデルを用いて3つの異なる認識タスクを用いて評価した。
論文 参考訳(メタデータ) (2022-11-11T15:33:21Z) - Reducing Overlearning through Disentangled Representations by
Suppressing Unknown Tasks [8.517620051440005]
視覚的特徴を学習するための既存のディープラーニングアプローチは、手元にあるタスクに必要なものよりも、過剰に学習し、より多くの情報を抽出する傾向がある。
プライバシー保護の観点からは、入力された視覚情報はモデルから保護されない。
未知のタスクを全て抑制することで、モデルオーバーラーニングを減らすためのモデル非依存のソリューションを提案する。
論文 参考訳(メタデータ) (2020-05-20T17:31:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。