論文の概要: CosmoCLIP: Generalizing Large Vision-Language Models for Astronomical Imaging
- arxiv url: http://arxiv.org/abs/2407.07315v1
- Date: Wed, 10 Jul 2024 02:24:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 18:11:16.241054
- Title: CosmoCLIP: Generalizing Large Vision-Language Models for Astronomical Imaging
- Title(参考訳): CosmoCLIP:天文学的イメージングのための大規模視線モデル
- Authors: Raza Imam, Mohammed Talha Alam, Umaima Rahman, Mohsen Guizani, Fakhri Karray,
- Abstract要約: 我々は、事前学習されたCLIPモデルに基づいて精密に微調整された天文学的な画像テキストコントラスト学習フレームワークであるCosmoCLIPを紹介する。
以上の結果から,CosmoCLIPは直接的かつ強力なフレームワークであり,ゼロショット分類や画像テキスト検索タスクにおいてCLIPを著しく上回っていることが明らかとなった。
- 参考スコア(独自算出の注目度): 29.601631519261822
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing vision-text contrastive learning models enhance representation transferability and support zero-shot prediction by matching paired image and caption embeddings while pushing unrelated pairs apart. However, astronomical image-label datasets are significantly smaller compared to general image and label datasets available from the internet. We introduce CosmoCLIP, an astronomical image-text contrastive learning framework precisely fine-tuned on the pre-trained CLIP model using SpaceNet and BLIP-based captions. SpaceNet, attained via FLARE, constitutes ~13k optimally distributed images, while BLIP acts as a rich knowledge extractor. The rich semantics derived from this SpaceNet and BLIP descriptions, when learned contrastively, enable CosmoCLIP to achieve superior generalization across various in-domain and out-of-domain tasks. Our results demonstrate that CosmoCLIP is a straightforward yet powerful framework, significantly outperforming CLIP in zero-shot classification and image-text retrieval tasks.
- Abstract(参考訳): 既存の視覚テキストコントラスト学習モデルは、表現伝達可能性を高め、無関係なペアを押し分けながら、ペア画像とキャプション埋め込みをマッチングすることでゼロショット予測をサポートする。
しかし、天文学的な画像ラベルデータセットは、インターネットから入手可能な一般的な画像やラベルデータセットに比べて大幅に小さくなっている。
本研究では、SpaceNetとBLIPベースのキャプションを用いて、事前学習したCLIPモデルに基づいて精密に微調整された、天文学的な画像テキストコントラスト学習フレームワークであるCosmoCLIPを紹介する。
BLIPは豊富な知識抽出器として機能するのに対し、SpaceNetはFLAREによって達成され、13kの最適分散画像を構成する。
このSpaceNetとBLIP記述から派生したリッチなセマンティクスは、対照的に学習すると、CosmoCLIPが様々なドメイン内およびドメイン外タスクにまたがる優れた一般化を実現することができる。
以上の結果から,CosmoCLIPは直接的かつ強力なフレームワークであり,ゼロショット分類や画像テキスト検索タスクにおいてCLIPを著しく上回っていることが明らかとなった。
関連論文リスト
- Open-Vocabulary Semantic Segmentation with Image Embedding Balancing [33.69721994194684]
本稿では,EBSegと呼ばれるオープン語彙セマンティックセグメンテーションのための新しいフレームワークを提案する。
AdaB Decoderは、トレーニングと新しいクラスの両方に異なるイメージ埋め込みを生成するように設計されている。
SSC Lossは画像特徴空間のクラス間の親和性とCLIPのテキスト特徴空間の親和性を調整する。
論文 参考訳(メタデータ) (2024-06-14T08:34:20Z) - UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World
Understanding [93.45067274442881]
本稿では,マルチグラニュラリティアライメントを備えたコントラスト言語画像事前学習(CLIP)を拡張した。
UMG-CLIPと呼ばれる統一された多粒性学習フレームワークを開発し、異なるレベルの詳細で多目的知覚能力を持つモデルを同時に強化する。
論文 参考訳(メタデータ) (2024-01-12T06:35:09Z) - S-CLIP: Semi-supervised Vision-Language Learning using Few Specialist
Captions [69.01985134519244]
対照的な言語画像事前学習(CLIP)のような視覚言語モデルは、自然画像領域において顕著な結果を示した。
S-CLIPはCLIPを訓練するための半教師付き学習手法であり、追加の未ペア画像を利用する。
S-CLIPは、ゼロショット分類でCLIPを10%改善し、リモートセンシングベンチマークで画像テキスト検索で4%改善した。
論文 参考訳(メタデータ) (2023-05-23T14:18:11Z) - Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal
Structured Representations [70.41385310930846]
マルチモーダルな構造表現を強化するためのエンドツーエンドフレームワークであるStructure-CLIPを提案する。
シーングラフを用いてセマンティックなネガティブな例の構築をガイドし、その結果、構造化された表現の学習に重点を置いている。
知識エンハンス(KEE)は、SGKを入力として活用し、構造化表現をさらに強化するために提案される。
論文 参考訳(メタデータ) (2023-05-06T03:57:05Z) - Hyperbolic Image-Text Representations [28.91160313537875]
本稿では,画像とテキストの双曲表現を生成するコントラストモデルMERUを提案する。
この結果から,MERUはCLIPの性能と競合しながら,高度に解釈可能で構造化された表現空間を学習していることがわかった。
論文 参考訳(メタデータ) (2023-04-18T17:59:45Z) - Learning Semantic-Aware Knowledge Guidance for Low-Light Image
Enhancement [69.47143451986067]
低照度画像強調法 (LLIE) は、照明の改善方法と正常照度画像の生成方法を検討する。
既存の手法の大部分は、異なる領域のセマンティック情報を考慮せずに、グローバルかつ均一な方法で低照度画像を改善する。
セマンティックセグメンテーションモデルにカプセル化される多種多様な事前学習において、低照度強化モデルを支援する新しいセマンティック・アウェア・ナレッジ誘導フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-14T10:22:28Z) - Stacked Cross-modal Feature Consolidation Attention Networks for Image
Captioning [1.4337588659482516]
本稿では,高レベルなセマンティック概念と視覚情報を統合するための特徴合成手法を利用する。
画像キャプションのための重畳型クロスモーダル特徴統合(SCFC)アテンションネットワークを提案し,同時にクロスモーダル特徴を集約する。
提案したSCFCは、MSCOCOとFlickr30Kデータセットの一般的な指標から、様々な最先端の画像キャプションベンチマークを上回ります。
論文 参考訳(メタデータ) (2023-02-08T09:15:09Z) - STAIR: Learning Sparse Text and Image Representation in Grounded Tokens [84.14528645941128]
疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。
CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。
CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2023-01-30T17:21:30Z) - ComCLIP: Training-Free Compositional Image and Text Matching [19.373706257771673]
コントラスト言語-画像事前訓練は画像とテキストのマッチングに優れたゼロショット性能を示した。
我々は新しいtextbftextittraining-free compositional CLIP model (ComCLIP) を提案する。
ComCLIPは、入力された画像を被写体、オブジェクト、アクションのサブイメージに切り離し、CLIPのビジョンエンコーダとテキストエンコーダを構成して、合成テキスト埋め込みとサブイメージ埋め込みに対する進化的なマッチングを実行する。
論文 参考訳(メタデータ) (2022-11-25T01:37:48Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。