論文の概要: Alpha-CLIP: A CLIP Model Focusing on Wherever You Want
- arxiv url: http://arxiv.org/abs/2312.03818v2
- Date: Wed, 13 Dec 2023 05:52:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-16 03:20:52.869524
- Title: Alpha-CLIP: A CLIP Model Focusing on Wherever You Want
- Title(参考訳): Alpha-CLIP: 好きな場所にフォーカスするCLIPモデル
- Authors: Zeyi Sun, Ye Fang, Tong Wu, Pan Zhang, Yuhang Zang, Shu Kong, Yuanjun
Xiong, Dahua Lin, Jiaqi Wang
- Abstract要約: コントラスト言語-画像事前学習(CLIP)は,多様なタスクにわたる画像から貴重なコンテンツ情報を抽出する上で重要な役割を担っている。
補助的なαチャネルを持つCLIPの強化版であるAlpha-CLIPを導入し、注意領域を提案するとともに、数百万のRGBA領域テキストペアを構築した微調整を行う。
オープンワールド認識、マルチモーダルな大言語モデル、条件付き2D/3D生成など、様々なタスクで有効性を示す。
- 参考スコア(独自算出の注目度): 77.17294130370921
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Language-Image Pre-training (CLIP) plays an essential role in
extracting valuable content information from images across diverse tasks. It
aligns textual and visual modalities to comprehend the entire image, including
all the details, even those irrelevant to specific tasks. However, for a finer
understanding and controlled editing of images, it becomes crucial to focus on
specific regions of interest, which can be indicated as points, masks, or boxes
by humans or perception models. To fulfill the requirements, we introduce
Alpha-CLIP, an enhanced version of CLIP with an auxiliary alpha channel to
suggest attentive regions and fine-tuned with constructed millions of RGBA
region-text pairs. Alpha-CLIP not only preserves the visual recognition ability
of CLIP but also enables precise control over the emphasis of image contents.
It demonstrates effectiveness in various tasks, including but not limited to
open-world recognition, multimodal large language models, and conditional 2D /
3D generation. It has a strong potential to serve as a versatile tool for
image-related tasks.
- Abstract(参考訳): コントラスト言語-画像事前学習(CLIP)は,多様なタスクにわたる画像から貴重なコンテンツ情報を抽出する上で重要な役割を担っている。
テキスト的および視覚的なモダリティを調整し、特定のタスクに関係のないものも含め、画像全体を理解する。
しかし,画像の微妙な理解と編集のためには,人や知覚モデルによってポイント,マスク,ボックスとして表示できる特定の関心領域に焦点を当てることが重要である。
この要求を満たすために,我々は,補助アルファチャネル付きクリップの拡張版であるalpha-clipを導入し,注意領域の提案と,構築された数百万のrgbaリージョンテキストペアによる微調整を行った。
Alpha-CLIPは、CLIPの視覚的認識能力を保持するだけでなく、画像内容の強調を正確に制御できる。
オープンワールド認識、マルチモーダル大規模言語モデル、条件付き2d/3d生成など、さまざまなタスクにおいて有効性を示す。
画像関連タスクのための汎用ツールとして機能する可能性が強い。
関連論文リスト
- Contrastive Localized Language-Image Pre-Training [60.4967533101887]
コントラスト言語-画像事前学習(CLIP)は、画像/テキスト表現を生成するために視覚エンコーダを訓練するための著名な方法である。
本稿では,CLIPとリージョンテキストのコントラッシブな損失とモジュールを補完することにより,CLOC(Contrastive Localized Language- Image Pre-Trening)を提案する。
CLOCは画像領域認識および検索タスクのための高品質な地域埋め込みを可能にする。
論文 参考訳(メタデータ) (2024-10-03T17:56:09Z) - Selective Vision-Language Subspace Projection for Few-shot CLIP [55.361337202198925]
SSP (Selective Vision-Language Subspace Projection) という手法を導入する。
SSPはローカルな画像特徴を取り入れ、それらをブリッジとして利用し、画像とテキストのペア間のアライメントを強化する。
提案手法では,学習不要な行列計算しか必要とせず,高度なCLIPベースの数ショット学習フレームワークにシームレスに統合できる。
論文 参考訳(メタデータ) (2024-07-24T03:45:35Z) - Enhancing Image Retrieval : A Comprehensive Study on Photo Search using
the CLIP Mode [0.27195102129095]
写真検索はCLIP(Contrastive Language- Image Pretraining)モデルの導入によって大きな進歩をみせた。
この要約は、CLIPの基本原理を要約し、写真検索の分野を前進させる可能性を強調している。
論文 参考訳(メタデータ) (2024-01-24T17:35:38Z) - UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding [90.74967596080982]
本稿では,マルチグラニュラリティアライメントを備えたコントラスト言語-画像事前学習(CLIP)を拡張した。
UMG-CLIPと呼ばれる統一多言語学習フレームワークを開発した。
パラメータ効率のよいチューニングにより、UMG-CLIPは、現在広く使われているCLIPの亜種を超え、多様な画像理解ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-12T06:35:09Z) - CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。
モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。
この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文 参考訳(メタデータ) (2023-10-21T20:20:13Z) - Composed Image Retrieval using Contrastive Learning and Task-oriented
CLIP-based Features [32.138956674478116]
参照画像と相対キャプションからなるクエリが与えられた場合、Composeed Image Retrievalの目的は、参照画像と視覚的に類似した画像を取得することである。
検討されたタスクに対処するために、OpenAI CLIPモデルの機能を使用します。
我々は、バイモーダル情報を統合することで、画像テキスト機能を組み合わせることを学ぶコンビネータネットワークを訓練する。
論文 参考訳(メタデータ) (2023-08-22T15:03:16Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。