論文の概要: DALIP: Distribution Alignment-based Language-Image Pre-Training for Domain-Specific Data
- arxiv url: http://arxiv.org/abs/2504.01386v1
- Date: Wed, 02 Apr 2025 05:56:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:21:37.629608
- Title: DALIP: Distribution Alignment-based Language-Image Pre-Training for Domain-Specific Data
- Title(参考訳): DALIP: 分散アライメントに基づく言語画像によるドメイン特化データの事前評価
- Authors: Junjie Wu, Jiangtao Xie, Zhaolin Zhang, Qilong Wang, Qinghua Hu, Peihua Li, Sen Xu,
- Abstract要約: 対照的に、CLIP(Contrastive Language- Image Pre-training)はドメイン固有のデータで有望なパフォーマンスを示している。
本稿では,生体データを対象とした分散アライメントに基づく言語画像事前学習法を提案する。
- 参考スコア(独自算出の注目度): 42.87396382273607
- License:
- Abstract: Recently, Contrastive Language-Image Pre-training (CLIP) has shown promising performance in domain-specific data (e.g., biology), and has attracted increasing research attention. Existing works generally focus on collecting extensive domain-specific data and directly tuning the original CLIP models. Intuitively, such a paradigm takes no full consideration of the characteristics lying in domain-specific data (e.g., fine-grained nature of biological data) and so limits model capability, while mostly losing the original ability of CLIP in the general domain. In this paper, we propose a Distribution Alignment-based Language-Image Pre-Training (DALIP) method for biological data. Specifically, DALIP optimizes CLIP models by matching the similarity between feature distribution of image-text pairs instead of the original [cls] token, which can capture rich yet effective information inherent in image-text pairs as powerful representations, and so better cope with fine-grained nature of biological data. Particularly, our DALIP efficiently approximates feature distribution via its first- and second-order statistics, while presenting a Multi-head Brownian Distance Covariance (MBDC) module to acquire second-order statistics of token features efficiently. Furthermore, we collect a new dataset for plant domain (e.g., specific data in biological domain) comprising 10M plant data with 3M general-domain data (namely PlantMix-13M) according to data mixing laws. Extensive experiments show that DALIP clearly outperforms existing CLIP counterparts in biological domain, while well generalizing to remote sensing and medical imaging domains. Besides, our PlantMix-13M dataset further boosts performance of DALIP in plant domain, while preserving model ability in general domain.
- Abstract(参考訳): 近年、CLIP(Contrastive Language- Image Pre-Training)は、ドメイン固有データ(例えば生物学)において有望な性能を示し、研究の注目を集めている。
既存の作業は一般的に、広範なドメイン固有のデータを収集し、オリジナルのCLIPモデルを直接チューニングすることに重点を置いています。
直感的には、そのようなパラダイムは、ドメイン固有のデータ(例えば、生物データのきめ細かい性質)にある特性を十分に考慮せず、モデル能力を制限する。
本稿では,生体データを対象とした分散アライメントに基づく言語画像事前学習手法を提案する。
具体的には、DALIPは、元の[cls]トークンではなく、画像とテキストのペアの特徴分布の類似性を一致させることで、CLIPモデルを最適化する。
特に,DALIPは,トークン特徴の2次統計を効率的に取得する多頭部ブラウン距離共分散(MBDC)モジュールを提示しながら,その1次統計と2次統計を用いて特徴分布を効率的に近似する。
さらに,データ混合法則に基づき,植物ドメイン(例えば,生物ドメインの特定データ)を3Mの一般ドメインデータ(すなわち植物Mix-13M)で10Mの植物データから収集する。
広範囲にわたる実験により、DALIPは生物学的領域において既存のCLIPよりも明らかに優れており、リモートセンシングや医用画像領域に最適化されていることが示されている。
さらに、植物ドメインにおけるDALIPの性能をさらに向上させ、一般ドメインにおけるモデル能力を維持しながら、植物ドメインにおけるDALIPの性能を高める。
関連論文リスト
- Domain Specific Data Distillation and Multi-modal Embedding Generation [0.0]
ドメイン中心の埋め込みを作成するという課題は、非構造化データの豊富さとドメイン固有の構造化データの不足から生じる。
本稿では,非構造化データからノイズをフィルタリングするために構造化データを活用する新しいモデリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-27T03:47:46Z) - Precision at Scale: Domain-Specific Datasets On-Demand [3.5900418884504095]
Precision at Scale (PaS)は、オンデマンドでドメイン固有のデータセットを自動生成するための新しい方法である。
PaSパイプラインは、最先端の基盤モデルと生成モデルを活用して、任意のドメインに属するイメージのコレクションを作成する。
自動生成されたドメイン固有データセットは、ImageNet-1kやImageNet-21kのような大規模教師付きデータセットよりも、事前トレーニングが優れていることを示す。
論文 参考訳(メタデータ) (2024-07-03T19:17:42Z) - WIDIn: Wording Image for Domain-Invariant Representation in Single-Source Domain Generalization [63.98650220772378]
We present WIDIn, Wording Images for Domain-Invariant representation, to disentangleative discriminative visual representation。
まず、ドメイン固有の言語を適応的に識別し、削除するために使用可能な、きめ細かいアライメントを組み込んだ言語を推定する。
WIDInは、CLIPのような事前訓練された視覚言語モデルと、MoCoやBERTのような個別訓練されたユニモーダルモデルの両方に適用可能であることを示す。
論文 参考訳(メタデータ) (2024-05-28T17:46:27Z) - DG-TTA: Out-of-domain Medical Image Segmentation through Augmentation and Descriptor-driven Domain Generalization and Test-Time Adaptation [43.842694540544194]
ドメイン外の画像に事前訓練された深層学習セグメンテーションモデルを適用すると、品質の不足を予測できる。
本研究では、拡張とともに強力な一般化記述子を用いて、ドメイン一般化事前学習とテスト時間適応を実現することを提案する。
論文 参考訳(メタデータ) (2023-12-11T10:26:21Z) - Federated and Generalized Person Re-identification through Domain and
Feature Hallucinating [88.77196261300699]
人物再識別(re-ID)におけるフェデレーションドメイン一般化(FedDG)の問題について検討する。
一般化された局所的・グローバルなモデルを学ぶための多様な特徴を創出する手法として,DFH (Domain and Feature Hallucinating) を提案する。
提案手法は4つの大規模re-IDベンチマークにおいてFedDGの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-05T09:15:13Z) - TAL: Two-stream Adaptive Learning for Generalizable Person
Re-identification [115.31432027711202]
我々は、ドメイン固有性とドメイン不変性の両方が、re-idモデルの一般化能力の向上に不可欠であると主張する。
これら2種類の情報を同時にモデル化するために,2ストリーム適応学習 (TAL) を命名した。
我々のフレームワークは、単一ソースとマルチソースの両方のドメイン一般化タスクに適用できる。
論文 参考訳(メタデータ) (2021-11-29T01:27:42Z) - Batch Normalization Embeddings for Deep Domain Generalization [50.51405390150066]
ドメインの一般化は、異なるドメインと見えないドメインで堅牢に実行されるように機械学習モデルをトレーニングすることを目的としている。
一般的な領域一般化ベンチマークにおいて,最先端技術よりも分類精度が著しく向上したことを示す。
論文 参考訳(メタデータ) (2020-11-25T12:02:57Z) - Multi-source Domain Adaptation for Visual Sentiment Classification [92.53780541232773]
マルチソース・ドメイン適応(MDA)手法をMSGAN(Multi-source Sentiment Generative Adversarial Network)と呼ぶ。
複数のソースドメインからのデータを扱うために、MSGANはソースドメインとターゲットドメインの両方のデータが同じ分布を共有する、統一された感情潜在空間を見つけることを学ぶ。
4つのベンチマークデータセットで実施された大規模な実験により、MSGANは視覚的感情分類のための最先端のMDAアプローチよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2020-01-12T08:37:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。