論文の概要: Reinforced Curriculum Pre-Alignment for Domain-Adaptive VLMs
- arxiv url: http://arxiv.org/abs/2602.10740v1
- Date: Wed, 11 Feb 2026 11:04:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.784933
- Title: Reinforced Curriculum Pre-Alignment for Domain-Adaptive VLMs
- Title(参考訳): ドメイン適応型VLMのための強化されたカリキュラム事前アライメント
- Authors: Yuming Yan, Shuo Yang, Kai Tang, Sihong Chen, Yang Zhang, Ke Xu, Dan Hu, Qun Yu, Pengfei Hu, Edith C. H. Ngai,
- Abstract要約: VLM(Vision-Language Models)は、優れた汎用能力を示すが、専門領域では不足することが多い。
本稿では,カリキュラム対応のプログレッシブ・変調機構を導入したポストトレーニングパラダイムであるReinforced Curriculum Pre-Alignment (RCPA)を提案する。
- 参考スコア(独自算出の注目度): 21.190823331753464
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) demonstrate remarkable general-purpose capabilities but often fall short in specialized domains such as medical imaging or geometric problem-solving. Supervised Fine-Tuning (SFT) can enhance performance within a target domain, but it typically causes catastrophic forgetting, limiting its generalization. The central challenge, therefore, is to adapt VLMs to new domains while preserving their general-purpose capabilities. Continual pretraining is effective for expanding knowledge in Large Language Models (LLMs), but it is less feasible for VLMs due to prohibitive computational costs and the unavailability of pretraining data for most open-source models. This necessitates efficient post-training adaptation methods. Reinforcement learning (RL)-based approaches such as Group Relative Policy Optimization (GRPO) have shown promise in preserving general abilities, yet they often fail in domain adaptation scenarios where the model initially lacks sufficient domain knowledge, leading to optimization collapse. To bridge this gap, we propose Reinforced Curriculum Pre-Alignment (RCPA), a novel post-training paradigm that introduces a curriculum-aware progressive modulation mechanism. In the early phase, RCPA applies partial output constraints to safely expose the model to new domain concepts. As the model's domain familiarity increases, training gradually transitions to full generation optimization, refining responses and aligning them with domain-specific preferences. This staged adaptation balances domain knowledge acquisition with the preservation of general multimodal capabilities. Extensive experiments across specialized domains and general benchmarks validate the effectiveness of RCPA, establishing a practical pathway toward building high-performing and domain-adaptive VLMs.
- Abstract(参考訳): VLM(Vision-Language Models)は、優れた汎用能力を示すが、医療画像や幾何学的問題解決のような特殊な領域では不足することが多い。
Supervised Fine-Tuning (SFT) はターゲット領域内での性能を高めることができるが、通常は破滅的な忘れ込みを引き起こし、一般化を制限する。
したがって、中心的な課題は、VLMを新しいドメインに適応させ、汎用的な能力を維持することである。
継続事前学習は、Large Language Models (LLMs) における知識の拡大に有効であるが、計算コストの禁止と、ほとんどのオープンソースモデルに対する事前学習データの有効性のため、VLM では実現不可能である。
これは効率的な訓練後適応法を必要とする。
グループ相対政策最適化(GRPO)のような強化学習(RL)ベースのアプローチは、一般的な能力を維持する上で有望だが、当初は十分なドメイン知識が不足していたドメイン適応シナリオでは失敗し、最適化が崩壊することが多い。
このギャップを埋めるために,カリキュラム事前調整(RCPA, Reinforced Curriculum Pre-Alignment)を提案する。
初期段階では、RCPAは、モデルを新しいドメイン概念に安全に公開するために、部分的な出力制約を適用します。
モデルのドメイン親しみ度が高まるにつれて、トレーニングは徐々にフルジェネレーションの最適化に移行し、応答を洗練し、それらをドメイン固有の嗜好と整合させる。
この段階的な適応は、ドメイン知識獲得と一般的なマルチモーダル能力の保存のバランスをとる。
RCPAの有効性を検証し、高い性能とドメイン適応性を持つVLMを構築するための実践的な経路を確立する。
関連論文リスト
- Exploring Probabilistic Modeling Beyond Domain Generalization for Semantic Segmentation [37.724608645202466]
ドメイン一般化セマンティック(DGSS)は、目に見えない環境でのドメインシフトがモデルパフォーマンスを著しく損なう可能性があるため、重要な課題である。
本稿では,既存のセグメンテーションネットワークの一般化を促進する確率的拡散アライメントフレームワークPDAFを紹介する。
実験は、多様で挑戦的な都市シーンにおけるPDAFの有効性を検証する。
論文 参考訳(メタデータ) (2025-07-28T22:27:58Z) - ixi-GEN: Efficient Industrial sLLMs through Domain Adaptive Continual Pretraining [3.976980328606434]
オープンソースの大規模言語モデル(LLM)は、エンタープライズアプリケーションにチャンスを広げました。
多くの組織は、大規模なモデルをデプロイし、メンテナンスするインフラをまだ持っていない。
小型の大規模言語モデル(sLLM)は、固有の性能制限にもかかわらず、実用的な代替品となっている。
論文 参考訳(メタデータ) (2025-07-09T12:30:42Z) - Adversarial Data Augmentation for Single Domain Generalization via Lyapunov Exponent-Guided Optimization [6.619253289031494]
単一ドメインの一般化は、単一のソースドメインのみを使用して、対象ドメインを見えないように一般化できるモデルを開発することを目的としている。
Lyapunov Exponent (LE) を用いた動的システム理論に基づく新しい最適化手法であるLEAwareSGDを提案する。
PACS、OfficeHome、DomainNetの実験は、LEAwareSGDがかなりの一般化の利益をもたらすことを示した。
論文 参考訳(メタデータ) (2025-07-06T09:03:08Z) - Demystifying Domain-adaptive Post-training for Financial LLMs [87.28855088465197]
FINDAPは、大規模言語モデルのドメイン適応後トレーニングに関する体系的できめ細かな研究である。
このアプローチは、FinCap、FinRec、FinTrain、FinEvalの4つの重要なコンポーネントで構成されています。
結果として得られるモデルであるLlama-Finは、幅広い財務タスクにわたる最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-01-09T04:26:15Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Open-Set Domain Adaptation with Visual-Language Foundation Models [51.49854335102149]
非教師なしドメイン適応(UDA)は、ソースドメインからラベルのないデータを持つターゲットドメインへの知識の転送に非常に効果的であることが証明されている。
オープンセットドメイン適応(ODA)は、トレーニングフェーズ中にこれらのクラスを識別する潜在的なソリューションとして登場した。
論文 参考訳(メタデータ) (2023-07-30T11:38:46Z) - Unsupervised Domain Generalization for Person Re-identification: A
Domain-specific Adaptive Framework [50.88463458896428]
ドメイン一般化(DG)は近年,人物再同定(ReID)において注目されている。
既存のメソッドは通常、ソースドメインにラベルを付ける必要があります。
本稿では、単純で効率的なドメイン固有適応化フレームワークを提案し、適応正規化モジュールで実現する。
論文 参考訳(メタデータ) (2021-11-30T02:35:51Z) - Universal Source-Free Domain Adaptation [57.37520645827318]
ドメイン適応のための新しい2段階学習プロセスを提案する。
Procurementの段階では、今後のカテゴリギャップやドメインシフトに関する事前知識を前提とせず、将来的なソースフリーデプロイメントのためのモデルの提供を目標としています。
Deploymentの段階では、幅広いカテゴリギャップをまたいで動作可能な統一適応アルゴリズムを設計することを目的としている。
論文 参考訳(メタデータ) (2020-04-09T07:26:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。