論文の概要: CosmoCLIP: Generalizing Large Vision-Language Models for Astronomical Imaging
- arxiv url: http://arxiv.org/abs/2407.07315v1
- Date: Wed, 10 Jul 2024 02:24:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 18:11:16.241054
- Title: CosmoCLIP: Generalizing Large Vision-Language Models for Astronomical Imaging
- Title(参考訳): CosmoCLIP:天文学的イメージングのための大規模視線モデル
- Authors: Raza Imam, Mohammed Talha Alam, Umaima Rahman, Mohsen Guizani, Fakhri Karray,
- Abstract要約: 我々は、事前学習されたCLIPモデルに基づいて精密に微調整された天文学的な画像テキストコントラスト学習フレームワークであるCosmoCLIPを紹介する。
以上の結果から,CosmoCLIPは直接的かつ強力なフレームワークであり,ゼロショット分類や画像テキスト検索タスクにおいてCLIPを著しく上回っていることが明らかとなった。
- 参考スコア(独自算出の注目度): 29.601631519261822
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing vision-text contrastive learning models enhance representation transferability and support zero-shot prediction by matching paired image and caption embeddings while pushing unrelated pairs apart. However, astronomical image-label datasets are significantly smaller compared to general image and label datasets available from the internet. We introduce CosmoCLIP, an astronomical image-text contrastive learning framework precisely fine-tuned on the pre-trained CLIP model using SpaceNet and BLIP-based captions. SpaceNet, attained via FLARE, constitutes ~13k optimally distributed images, while BLIP acts as a rich knowledge extractor. The rich semantics derived from this SpaceNet and BLIP descriptions, when learned contrastively, enable CosmoCLIP to achieve superior generalization across various in-domain and out-of-domain tasks. Our results demonstrate that CosmoCLIP is a straightforward yet powerful framework, significantly outperforming CLIP in zero-shot classification and image-text retrieval tasks.
- Abstract(参考訳): 既存の視覚テキストコントラスト学習モデルは、表現伝達可能性を高め、無関係なペアを押し分けながら、ペア画像とキャプション埋め込みをマッチングすることでゼロショット予測をサポートする。
しかし、天文学的な画像ラベルデータセットは、インターネットから入手可能な一般的な画像やラベルデータセットに比べて大幅に小さくなっている。
本研究では、SpaceNetとBLIPベースのキャプションを用いて、事前学習したCLIPモデルに基づいて精密に微調整された、天文学的な画像テキストコントラスト学習フレームワークであるCosmoCLIPを紹介する。
BLIPは豊富な知識抽出器として機能するのに対し、SpaceNetはFLAREによって達成され、13kの最適分散画像を構成する。
このSpaceNetとBLIP記述から派生したリッチなセマンティクスは、対照的に学習すると、CosmoCLIPが様々なドメイン内およびドメイン外タスクにまたがる優れた一般化を実現することができる。
以上の結果から,CosmoCLIPは直接的かつ強力なフレームワークであり,ゼロショット分類や画像テキスト検索タスクにおいてCLIPを著しく上回っていることが明らかとなった。
関連論文リスト
- Finetuning CLIP to Reason about Pairwise Differences [52.028073305958074]
本稿では,CLIPのような視覚言語モデルの学習手法を提案する。
我々はまず,ある属性による画像のランク付け能力を大幅に向上させることを実証した。
また、得られる埋め込みは埋め込み空間においてより大きな幾何学的性質に従うことを示す。
論文 参考訳(メタデータ) (2024-09-15T13:02:14Z) - Open-Vocabulary Semantic Segmentation with Image Embedding Balancing [33.69721994194684]
本稿では,EBSegと呼ばれるオープン語彙セマンティックセグメンテーションのための新しいフレームワークを提案する。
AdaB Decoderは、トレーニングと新しいクラスの両方に異なるイメージ埋め込みを生成するように設計されている。
SSC Lossは画像特徴空間のクラス間の親和性とCLIPのテキスト特徴空間の親和性を調整する。
論文 参考訳(メタデータ) (2024-06-14T08:34:20Z) - UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding [90.74967596080982]
本稿では,マルチグラニュラリティアライメントを備えたコントラスト言語-画像事前学習(CLIP)を拡張した。
UMG-CLIPと呼ばれる統一多言語学習フレームワークを開発した。
パラメータ効率のよいチューニングにより、UMG-CLIPは、現在広く使われているCLIPの亜種を超え、多様な画像理解ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-12T06:35:09Z) - S-CLIP: Semi-supervised Vision-Language Learning using Few Specialist
Captions [69.01985134519244]
対照的な言語画像事前学習(CLIP)のような視覚言語モデルは、自然画像領域において顕著な結果を示した。
S-CLIPはCLIPを訓練するための半教師付き学習手法であり、追加の未ペア画像を利用する。
S-CLIPは、ゼロショット分類でCLIPを10%改善し、リモートセンシングベンチマークで画像テキスト検索で4%改善した。
論文 参考訳(メタデータ) (2023-05-23T14:18:11Z) - Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal
Structured Representations [70.41385310930846]
マルチモーダルな構造表現を強化するためのエンドツーエンドフレームワークであるStructure-CLIPを提案する。
シーングラフを用いてセマンティックなネガティブな例の構築をガイドし、その結果、構造化された表現の学習に重点を置いている。
知識エンハンス(KEE)は、SGKを入力として活用し、構造化表現をさらに強化するために提案される。
論文 参考訳(メタデータ) (2023-05-06T03:57:05Z) - Hyperbolic Image-Text Representations [28.91160313537875]
本稿では,画像とテキストの双曲表現を生成するコントラストモデルMERUを提案する。
この結果から,MERUはCLIPの性能と競合しながら,高度に解釈可能で構造化された表現空間を学習していることがわかった。
論文 参考訳(メタデータ) (2023-04-18T17:59:45Z) - STAIR: Learning Sparse Text and Image Representation in Grounded Tokens [84.14528645941128]
疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。
CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。
CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2023-01-30T17:21:30Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。