論文の概要: Unleashing Foundation Vision Models: Adaptive Transfer for Diverse Data-Limited Scientific Domains
- arxiv url: http://arxiv.org/abs/2512.22664v1
- Date: Sat, 27 Dec 2025 17:32:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.164727
- Title: Unleashing Foundation Vision Models: Adaptive Transfer for Diverse Data-Limited Scientific Domains
- Title(参考訳): ファウンデーションビジョンモデル: 多様なデータ制限された科学ドメインへの適応的転送
- Authors: Qiankun Li, Feng He, Huabao Chen, Xin Ning, Kun Wang, Zengfu Wang,
- Abstract要約: 本稿では,Cluster Attention Adapter (CLAdapter)を提案する。
CLAdapterは、大規模データから学んだリッチな表現を、さまざまなデータ制限されたダウンストリームタスクに洗練し、適応する。
CLAdapterは、様々なデータ制限された科学領域で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 18.63739035672662
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the big data era, the computer vision field benefits from large-scale datasets such as LAION-2B, LAION-400M, and ImageNet-21K, Kinetics, on which popular models like the ViT and ConvNeXt series have been pre-trained, acquiring substantial knowledge. However, numerous downstream tasks in specialized and data-limited scientific domains continue to pose significant challenges. In this paper, we propose a novel Cluster Attention Adapter (CLAdapter), which refines and adapts the rich representations learned from large-scale data to various data-limited downstream tasks. Specifically, CLAdapter introduces attention mechanisms and cluster centers to personalize the enhancement of transformed features through distribution correlation and transformation matrices. This enables models fine-tuned with CLAdapter to learn distinct representations tailored to different feature sets, facilitating the models' adaptation from rich pre-trained features to various downstream scenarios effectively. In addition, CLAdapter's unified interface design allows for seamless integration with multiple model architectures, including CNNs and Transformers, in both 2D and 3D contexts. Through extensive experiments on 10 datasets spanning domains such as generic, multimedia, biological, medical, industrial, agricultural, environmental, geographical, materials science, out-of-distribution (OOD), and 3D analysis, CLAdapter achieves state-of-the-art performance across diverse data-limited scientific domains, demonstrating its effectiveness in unleashing the potential of foundation vision models via adaptive transfer. Code is available at https://github.com/qklee-lz/CLAdapter.
- Abstract(参考訳): ビッグデータ時代において、コンピュータビジョンフィールドは、LAION-2B、LAION-400M、ImageNet-21Kのような大規模データセットの恩恵を受ける。
しかし、専門分野やデータ制限分野における多くのダウンストリームタスクは、大きな課題を呈し続けている。
本稿では,大規模データから学習したリッチな表現を改良し,様々なデータ制限された下流タスクに適応する新しいクラスタアテンションアダプタ(CLAdapter)を提案する。
具体的には、CLAdapterは、分布相関と変換行列を通じて変換特徴の強化をパーソナライズするために、アテンションメカニズムとクラスタセンターを導入している。
これにより、CLAdapterで微調整されたモデルでは、異なる特徴セットに合わせて異なる表現を学習することが可能になり、モデルがリッチな事前訓練された機能から様々な下流シナリオへの適応が容易になる。
さらに、CLAdapterの統一インターフェース設計により、CNNやTransformerを含む複数のモデルアーキテクチャを2Dと3Dの両方のコンテキストでシームレスに統合することができる。
CLAdapterは、一般的な、マルチメディア、生物学的、医療、産業、農業、環境、地理的、材料科学、配布外(OOD)、そして3D分析といった10の領域にまたがる10のデータセットに関する広範な実験を通じて、さまざまなデータ制限された科学領域にわたる最先端のパフォーマンスを達成し、適応的転送を通じて基礎視覚モデルの可能性を明らかにする。
コードはhttps://github.com/qklee-lz/CLAdapterで入手できる。
関連論文リスト
- Vision-G1: Towards General Vision Language Reasoning with Multi-Domain Data Curation [64.23194519770897]
8次元にわたる46のデータソースから、総合的なRL対応のビジュアル推論データセットを構築します。
このデータセットから高品質なトレーニングサンプルを識別するために,影響関数に基づくデータ選択と難易度に基づくフィルタリング手法を提案する。
我々はVLM(Vision-G1)をデータカリキュラム付きマルチラウンドRLを用いて訓練し、その視覚的推論能力を反復的に改善する。
論文 参考訳(メタデータ) (2025-08-18T07:24:33Z) - How Can Multimodal Remote Sensing Datasets Transform Classification via SpatialNet-ViT? [4.148953499574201]
視覚変換器(ViT)とマルチタスク学習(MTL)の力を利用する新しいモデルであるSpatialNet-ViTを提案する。
この統合されたアプローチは、空間認識と文脈理解を組み合わせることで、分類精度と拡張性の両方を改善します。
論文 参考訳(メタデータ) (2025-06-25T10:50:33Z) - LaVin-DiT: Large Vision Diffusion Transformer [99.98106406059333]
LaVin-DiTは、20以上のコンピュータビジョンタスクを生成フレームワークで扱うために設計された、スケーラブルで統一された基盤モデルである。
視覚タスクの生成性能を最適化するための重要なイノベーションを紹介する。
このモデルは0.1Bから3.4Bのパラメータに拡張され、様々な視覚タスクにまたがる相当なスケーラビリティと最先端の性能を示す。
論文 参考訳(メタデータ) (2024-11-18T12:05:27Z) - Multi-OCT-SelfNet: Integrating Self-Supervised Learning with Multi-Source Data Fusion for Enhanced Multi-Class Retinal Disease Classification [2.5091334993691206]
網膜疾患診断のための堅牢なディープラーニングモデルの開発には、トレーニングのためのかなりのデータセットが必要である。
より小さなデータセットで効果的に一般化する能力は、依然として永続的な課題である。
さまざまなデータソースを組み合わせて、パフォーマンスを改善し、新しいデータに一般化しています。
論文 参考訳(メタデータ) (2024-09-17T17:22:35Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - MDViT: Multi-domain Vision Transformer for Small Medical Image Segmentation Datasets [19.44142290594537]
医用画像セグメンテーション(MIS)を改善するための有望なソリューションとして、ビジョントランスフォーマー(ViT)が登場した。
ViTは通常、単一のデータソースを使用してトレーニングされ、他の利用可能なデータセットから活用できる貴重な知識を見落としている。
本稿では,データハンガーを緩和し,NKTと戦うドメインアダプタを含む,最初のマルチドメイン ViT である MDViT を提案する。
論文 参考訳(メタデータ) (2023-07-05T08:19:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。