Fugu-MT 論文翻訳(概要): Alpha-CLIP: A CLIP Model Focusing on Wherever You Want

論文の概要: Alpha-CLIP: A CLIP Model Focusing on Wherever You Want

arxiv url: http://arxiv.org/abs/2312.03818v2
Date: Wed, 13 Dec 2023 05:52:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-16 03:20:52.869524
Title: Alpha-CLIP: A CLIP Model Focusing on Wherever You Want
Title（参考訳）: Alpha-CLIP: 好きな場所にフォーカスするCLIPモデル
Authors: Zeyi Sun, Ye Fang, Tong Wu, Pan Zhang, Yuhang Zang, Shu Kong, Yuanjun Xiong, Dahua Lin, Jiaqi Wang
Abstract要約: コントラスト言語-画像事前学習(CLIP)は,多様なタスクにわたる画像から貴重なコンテンツ情報を抽出する上で重要な役割を担っている。補助的なαチャネルを持つCLIPの強化版であるAlpha-CLIPを導入し、注意領域を提案するとともに、数百万のRGBA領域テキストペアを構築した微調整を行う。オープンワールド認識、マルチモーダルな大言語モデル、条件付き2D/3D生成など、様々なタスクで有効性を示す。
参考スコア（独自算出の注目度）: 77.17294130370921
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Contrastive Language-Image Pre-training (CLIP) plays an essential role in extracting valuable content information from images across diverse tasks. It aligns textual and visual modalities to comprehend the entire image, including all the details, even those irrelevant to specific tasks. However, for a finer understanding and controlled editing of images, it becomes crucial to focus on specific regions of interest, which can be indicated as points, masks, or boxes by humans or perception models. To fulfill the requirements, we introduce Alpha-CLIP, an enhanced version of CLIP with an auxiliary alpha channel to suggest attentive regions and fine-tuned with constructed millions of RGBA region-text pairs. Alpha-CLIP not only preserves the visual recognition ability of CLIP but also enables precise control over the emphasis of image contents. It demonstrates effectiveness in various tasks, including but not limited to open-world recognition, multimodal large language models, and conditional 2D / 3D generation. It has a strong potential to serve as a versatile tool for image-related tasks.
Abstract（参考訳）: コントラスト言語-画像事前学習(CLIP)は,多様なタスクにわたる画像から貴重なコンテンツ情報を抽出する上で重要な役割を担っている。テキスト的および視覚的なモダリティを調整し、特定のタスクに関係のないものも含め、画像全体を理解する。しかし,画像の微妙な理解と編集のためには,人や知覚モデルによってポイント,マスク,ボックスとして表示できる特定の関心領域に焦点を当てることが重要である。この要求を満たすために,我々は,補助アルファチャネル付きクリップの拡張版であるalpha-clipを導入し,注意領域の提案と,構築された数百万のrgbaリージョンテキストペアによる微調整を行った。 Alpha-CLIPは、CLIPの視覚的認識能力を保持するだけでなく、画像内容の強調を正確に制御できる。オープンワールド認識、マルチモーダル大規模言語モデル、条件付き2d/3d生成など、さまざまなタスクにおいて有効性を示す。画像関連タスクのための汎用ツールとして機能する可能性が強い。

関連論文リスト

SmartCLIP: Modular Vision-language Alignment with Identification Guarantees [59.16312652369709]
Contrastive Language-Image Pre-Traiing (CLIP)citepradford2021 Learningは、コンピュータビジョンとマルチモーダル学習において重要なモデルとして登場した。 CLIPは、多くの画像テキストデータセットにおける潜在的な情報ミスアライメントに苦労し、絡み合った表現に悩まされている。モジュラー方式で、最も関連性の高い視覚的およびテキスト的表現を特定し、調整する新しいアプローチである。
論文参考訳（メタデータ） (2025-07-29T22:26:20Z)
MaskedCLIP: Bridging the Masked and CLIP Space for Semi-Supervised Medical Vision-Language Pre-training [27.35164449801058]
State-of-the-artメソッドは、視覚言語による事前学習によるペア画像テキストデータと、自己教師付き事前学習による未ペア画像データの両方を活用して基礎モデルを学ぶ。そこで我々は,相乗的マスク付き画像モデリングとコントラスト言語画像事前学習フレームワークMaskedCLIPを提案する。
論文参考訳（メタデータ） (2025-07-23T06:15:54Z)
Ranking-aware adapter for text-driven image ordering with CLIP [76.80965830448781]
本稿では,CLIPモデルを学習からランクへのタスクに再構成する,効率的かつ効率的な手法を提案する。我々のアプローチは、ランキングの目的のために新しい指示に適応するための学習可能なプロンプトを取り入れている。私たちのランキングアウェアアダプタは、様々なタスクにおいて微調整されたCLIPよりも一貫して優れています。
論文参考訳（メタデータ） (2024-12-09T18:51:05Z)
Contrastive Localized Language-Image Pre-Training [60.4967533101887]
コントラスト言語-画像事前学習(CLIP)は、画像/テキスト表現を生成するために視覚エンコーダを訓練するための著名な方法である。本稿では,CLIPとリージョンテキストのコントラッシブな損失とモジュールを補完することにより,CLOC(Contrastive Localized Language- Image Pre-Trening)を提案する。 CLOCは画像領域認識および検索タスクのための高品質な地域埋め込みを可能にする。
論文参考訳（メタデータ） (2024-10-03T17:56:09Z)
Selective Vision-Language Subspace Projection for Few-shot CLIP [55.361337202198925]
SSP (Selective Vision-Language Subspace Projection) という手法を導入する。 SSPはローカルな画像特徴を取り入れ、それらをブリッジとして利用し、画像とテキストのペア間のアライメントを強化する。提案手法では,学習不要な行列計算しか必要とせず,高度なCLIPベースの数ショット学習フレームワークにシームレスに統合できる。
論文参考訳（メタデータ） (2024-07-24T03:45:35Z)
Enhancing Image Retrieval : A Comprehensive Study on Photo Search using the CLIP Mode [0.27195102129095]
写真検索はCLIP(Contrastive Language- Image Pretraining)モデルの導入によって大きな進歩をみせた。この要約は、CLIPの基本原理を要約し、写真検索の分野を前進させる可能性を強調している。
論文参考訳（メタデータ） (2024-01-24T17:35:38Z)
UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding [90.74967596080982]
本稿では,マルチグラニュラリティアライメントを備えたコントラスト言語-画像事前学習(CLIP)を拡張した。 UMG-CLIPと呼ばれる統一多言語学習フレームワークを開発した。パラメータ効率のよいチューニングにより、UMG-CLIPは、現在広く使われているCLIPの亜種を超え、多様な画像理解ベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-01-12T06:35:09Z)
CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文参考訳（メタデータ） (2023-10-21T20:20:13Z)
Composed Image Retrieval using Contrastive Learning and Task-oriented CLIP-based Features [32.138956674478116]
参照画像と相対キャプションからなるクエリが与えられた場合、Composeed Image Retrievalの目的は、参照画像と視覚的に類似した画像を取得することである。検討されたタスクに対処するために、OpenAI CLIPモデルの機能を使用します。我々は、バイモーダル情報を統合することで、画像テキスト機能を組み合わせることを学ぶコンビネータネットワークを訓練する。
論文参考訳（メタデータ） (2023-08-22T15:03:16Z)
Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文参考訳（メタデータ） (2022-10-17T17:57:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。