論文の概要: Chain-of-Adaptation: Surgical Vision-Language Adaptation with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.20116v1
- Date: Fri, 20 Mar 2026 16:38:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:39.242639
- Title: Chain-of-Adaptation: Surgical Vision-Language Adaptation with Reinforcement Learning
- Title(参考訳): 適応の連鎖:強化学習を用いた外科的視覚言語適応
- Authors: Jiajie Li, Chenhui Xu, Meihuan Liu, Jinjun Xiong,
- Abstract要約: CoA(Chain-of-Adaptation)は、モデル固有の推論と知覚能力を維持しながらドメイン知識を統合するために設計された適応フレームワークである。
標準的な外科的ベンチマークの実験では、分布内および分布外設定の両方で、CoAは監督された微調整よりも高い精度、より強い一般化、より安定した振る舞いを達成できることを示した。
- 参考スコア(独自算出の注目度): 12.522427297416407
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Conventional fine-tuning on domain-specific datasets can inadvertently alter a model's pretrained multimodal priors, leading to reduced generalization. To address this, we propose Chain-of-Adaptation (CoA), an adaptation framework designed to integrate domain knowledge while maintaining the model's inherent reasoning and perceptual capabilities. CoA introduces a structured reasoning format that enhances domain alignment without sacrificing general multimodal competence by reinforcement learning. Experiments on standard surgical benchmarks, under both in-distribution and out-of-distribution settings, demonstrate that CoA achieves higher accuracy, stronger generalization, and more stable behavior than supervised fine-tuning. Furthermore, ablation studies confirm that CoA effectively preserves the model's core visual-language abilities, providing a reliable pathway for domain specialization in VLMs.
- Abstract(参考訳): ドメイン固有のデータセットの従来の微調整は、モデルの事前訓練されたマルチモーダル事前を不注意に変更し、一般化を減少させる。
これを解決するために、モデル固有の推論と知覚能力を維持しながらドメイン知識を統合するために設計された適応フレームワークであるChain-of-Adaptation (CoA)を提案する。
CoAは、強化学習による一般的なマルチモーダル能力を犠牲にすることなく、ドメインアライメントを向上させる構造的推論形式を導入している。
標準的な外科的ベンチマークの実験では、分布内および分布外設定の両方で、CoAは監督された微調整よりも高い精度、より強い一般化、より安定した振る舞いを達成できることを示した。
さらに、アブレーション研究では、CoAがモデルの中心となる視覚言語能力を効果的に維持し、VLMにおけるドメインの専門化のための信頼できる経路を提供することを確認した。
関連論文リスト
- Reinforced Curriculum Pre-Alignment for Domain-Adaptive VLMs [21.190823331753464]
VLM(Vision-Language Models)は、優れた汎用能力を示すが、専門領域では不足することが多い。
本稿では,カリキュラム対応のプログレッシブ・変調機構を導入したポストトレーニングパラダイムであるReinforced Curriculum Pre-Alignment (RCPA)を提案する。
論文 参考訳(メタデータ) (2026-02-11T11:04:37Z) - Enhancing Generalization of Depth Estimation Foundation Model via Weakly-Supervised Adaptation with Regularization [21.788680301776207]
WeSTAR(Weakly supervised Self-Training Adaptation with Regularization)を提案する。
まず、構造的自己超越の主源として、密集した自己学習目標を採用する。
さらにロバスト性を改善するために,意味論的に認識された階層的正規化を導入する。
論文 参考訳(メタデータ) (2025-11-18T08:16:16Z) - Global Variational Inference Enhanced Robust Domain Adaptation [7.414646586981638]
本稿では,構造を意識したクロスドメインアライメントを実現するために,変分推論による連続的,クラス条件のグローバルな事前学習フレームワークを提案する。
GVI-DAは、潜在特徴再構成によるドメインギャップを最小化し、ランダムサンプリングによるグローバルコードブック学習を用いて後部崩壊を緩和する。
低信頼の擬似ラベルを捨て、信頼性の高いターゲットドメインサンプルを生成することにより、ロバスト性をさらに向上する。
論文 参考訳(メタデータ) (2025-07-04T04:43:23Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Revisiting the Robust Generalization of Adversarial Prompt Tuning [4.033827046965844]
本稿では,画像とテキストの特徴のアライメントを高めるために,適応型一貫性誘導型適応型適応型適応プロンプトチューニング(CAPT)フレームワークを提案する。
我々は14のデータセットと4つのデータ空間をまたいだ実験を行い、CAPTが他の最先端の適応手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-18T02:54:41Z) - HCVP: Leveraging Hierarchical Contrastive Visual Prompt for Domain
Generalization [69.33162366130887]
ドメイン一般化(DG)は、不変の機能を学ぶことによって、目に見えないシナリオに優れた機械学習モデルを作成するための取り組みである。
モデルにドメインレベルとタスク固有の特性を補足する新しい手法を提案する。
このアプローチは、特定の特徴から不変な特徴をより効果的に分離し、一般化を促進することを目的としている。
論文 参考訳(メタデータ) (2024-01-18T04:23:21Z) - Unsupervised Domain Generalization for Person Re-identification: A
Domain-specific Adaptive Framework [50.88463458896428]
ドメイン一般化(DG)は近年,人物再同定(ReID)において注目されている。
既存のメソッドは通常、ソースドメインにラベルを付ける必要があります。
本稿では、単純で効率的なドメイン固有適応化フレームワークを提案し、適応正規化モジュールで実現する。
論文 参考訳(メタデータ) (2021-11-30T02:35:51Z) - Target-Embedding Autoencoders for Supervised Representation Learning [111.07204912245841]
本稿では,対象空間が高次元な純粋教師付き環境における一般化の枠組みを解析する。
我々は、教師付き予測のための目標埋め込みオートエンコーダ(TEA)の一般的なフレームワークのモチベーションと形式化を行い、特徴とターゲットの予測の両方から予測可能なように最適化された中間潜在表現を学習する。
論文 参考訳(メタデータ) (2020-01-23T02:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。