論文の概要: CHIPS: Efficient CLIP Adaptation via Curvature-aware Hybrid Influence-based Data Selection
- arxiv url: http://arxiv.org/abs/2511.18519v1
- Date: Sun, 23 Nov 2025 16:25:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.880086
- Title: CHIPS: Efficient CLIP Adaptation via Curvature-aware Hybrid Influence-based Data Selection
- Title(参考訳): CHIPS: Curvature-aware Hybrid Influence-based data SelectionによるCLIP適応の効率化
- Authors: Xinlin Zhuang, Yichen Li, Xiwei Liu, Haolin Yang, Yifan Lu, Ziyun Zou, Yulong Li, Huifa Li, Dongliang Chen, Qinglei Wang, Weiyang Liu, Ying Qian, Jiangming Shi, Imran Razzak,
- Abstract要約: CLIPを垂直領域に適用することは、通常、新しい微調整戦略や、大規模なドメイン固有のデータセット上での継続事前トレーニング(CPT)によってアプローチされる。
我々は、このタスクをデータ中心の観点から再考する: CPTの大規模データセットの代わりに、効果的なデータ選択は可能か?
そこで,CHIPS(Curvature-aware Hybrid Influence in Projection Subspace)を導入し,各画像テキスト対に3つの相補的要素を3つの目標に整合させるユーティリティスコアを割り当てる。
- 参考スコア(独自算出の注目度): 41.61500990573312
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Adapting CLIP to vertical domains is typically approached by novel fine-tuning strategies or by continual pre-training (CPT) on large domain-specific datasets. Yet, data itself remains an underexplored factor in this process. We revisit this task from a data-centric perspective: Can effective data selection substitute for large-scale datasets in CPT? We introduce CHIPS (Curvature-aware Hybrid Influence in Projection Subspace), which assigns each image-text pair a utility score that integrates three complementary factors aligned with three goals: faithfulness via a curvature-aware, Newton-style alignment computed in CLIP's end-point subspace; scalability via an InfoNCE-aware curvature estimator with Johnson-Lindenstrauss (JL) sketching; and retention via a selection-aware relevance weight combined with learnability to balance target adaptation against general-domain preservation. We justify this design theoretically by proving a lower-bound guarantee on the proxy's correlation with full-parameter alignment and by characterizing the bias-variance trade-offs introduced by curvature mixing and JL sketching. We evaluate CHIPS empirically across various settings: 1) CHIPS attains state-of-the-art performance among selection baselines on 17 medical benchmarks, matches full-dataset CPT with 30% of the data, and outperforms half-dataset CPT using only 10%; 2) on 31 general-domain benchmarks, CHIPS yields the smallest performance drop under 10-30% data-retention budgets. Code, data, and checkpoints will be released.
- Abstract(参考訳): CLIPを垂直領域に適用することは、通常、新しい微調整戦略や、大規模なドメイン固有のデータセット上での継続事前トレーニング(CPT)によってアプローチされる。
しかし、このプロセスではデータ自体が未探索の要素である。
我々は、このタスクをデータ中心の観点から再考する: CPTの大規模データセットの代わりに、効果的なデータ選択は可能か?
提案手法では,CLIPの終点部分空間で計算されたニュートン型アライメントの忠実度,Johnson-Lindenstrauss (JL) スケッチによるInfoNCE対応曲率推定器によるスケーラビリティ,および一般領域保存に対する目標適応のバランスをとるための学習性を組み合わせた選択認識関連度重みによる保持という,3つの目標に整合した3つの相補的因子を統合するユーティリティスコアを,各画像テキストペアに割り当てるCHIPS(Curvature-aware Hybrid Influence in Projection Subspace)を導入する。
我々は、この設計を理論的に正当化するために、プロキシとフルパラメータアライメントとの相関に対する低いバウンド保証を証明し、曲率混合とJLスケッチによって導入されたバイアス分散トレードオフを特徴付ける。
様々な設定でCHIPSを実証的に評価する。
1)CHIPSは17の医用ベンチマークにおける選抜ベースライン間の最先端性能を達成し、全データセットCPTと30%のデータとを一致させ、半データセットCPTを10%で上回ります。
2)31の一般ドメインベンチマークにおいて、CHIPSは10~30%のデータ保持予算以下で最小のパフォーマンス低下をもたらす。
コード、データ、チェックポイントがリリースされる。
関連論文リスト
- CO-PFL: Contribution-Oriented Personalized Federated Learning for Heterogeneous Networks [51.43780477302533]
コントリビューション指向型PFL(CO-PFL)は,グローバルアグリゲーションに対する各クライアントのコントリビューションを動的に推定するアルゴリズムである。
CO-PFLは、パーソナライズ精度、堅牢性、スケーラビリティ、収束安定性において、最先端の手法を一貫して超越している。
論文 参考訳(メタデータ) (2025-10-23T05:10:06Z) - Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning [71.30276778807068]
サンプルプルーニングとトークンプルーニングを戦略的に協調する統合フレームワークを提案する。
Q-Tuningは、トレーニングデータの12.5%しか使用せず、全データSFTベースラインに対する平均38%の改善を実現している。
論文 参考訳(メタデータ) (2025-09-28T13:27:38Z) - Quality over Quantity: An Effective Large-Scale Data Reduction Strategy Based on Pointwise V-Information [2.133855532092057]
我々は、ポイントワイドV情報(PVI)に基づく効果的なデータ削減戦略を提案する。
実験の結果、データの10%から30%が削除された場合、分類器の性能は0.0001%から0.76%の精度で維持されることがわかった。
我々は,これまで英語のデータセットに限られていたPVIフレームワークを,さまざまな自然言語処理(NLP)タスクやベースモデルに適用した。
論文 参考訳(メタデータ) (2025-06-19T06:59:19Z) - CLIPLoss and Norm-Based Data Selection Methods for Multimodal Contrastive Learning [19.100022935748225]
データ選択は、大規模ビジュアル言語モデル(例えば、CLIP)のコア問題として浮上した。
3つの主要なデータ選択アプローチは、(1)データ選択を支援するために外部のCLIPモデルを活用すること、(2)高品質なデータを選択するのにより効果的な新しいCLIPスタイルの埋め込みモデルをトレーニングすること、(3)より優れたメトリクスや戦略をCLIP埋め込みに普遍的に適用することである。
論文 参考訳(メタデータ) (2024-05-29T22:19:57Z) - FairerCLIP: Debiasing CLIP's Zero-Shot Predictions using Functions in RKHSs [24.991684983495542]
本稿では,CLIPのゼロショット予測をより公平かつ堅牢に行うための一般手法であるFairerCLIPを提案する。
ヒルベルト核空間(RKHS)の再生において,CLIPのイメージとテキスト表現を両立させる問題を定式化する。
論文 参考訳(メタデータ) (2024-03-22T19:41:26Z) - Getting More Juice Out of Your Data: Hard Pair Refinement Enhances Visual-Language Models Without Extra Data [122.282521548393]
コントラスト言語-画像事前学習 (CLIP) は, クロスモーダルな画像-テキスト表現学習の標準となっている。
HELIPは、CLIPモデルを改善するためのコスト効率のよい戦略であり、継続的なトレーニングにおいて既存のデータセット内の挑戦的なテキストイメージペアを利用することで、CLIPモデルを改善する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - DataComp: In search of the next generation of multimodal datasets [179.79323076587255]
DataCompは、Common Crawlの128億の画像テキストペアの候補プールを中心にしたデータセット実験用のテストベッドである。
我々のベンチマークは、複数の計算スケールから成っている。
特に、最良のベースラインであるDataComp-1Bは、ImageNetでCLIP ViT-L/14をスクラッチから79.2%のゼロショット精度でトレーニングすることが可能です。
論文 参考訳(メタデータ) (2023-04-27T11:37:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。