論文の概要: The Geometry of Robustness: Optimizing Loss Landscape Curvature and Feature Manifold Alignment for Robust Finetuning of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.27139v1
- Date: Sat, 28 Mar 2026 05:22:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.806886
- Title: The Geometry of Robustness: Optimizing Loss Landscape Curvature and Feature Manifold Alignment for Robust Finetuning of Vision-Language Models
- Title(参考訳): ロバストネスの幾何学:視覚・言語モデルのロバスト微視化のためのランドスケープ曲線の最適化と特徴マニフォールドアライメント
- Authors: Shivang Chopra, Shaunak Halbe, Chengyue Huan, Brisa Maneechotesuwan, Zsolt Kira,
- Abstract要約: 一般化保存法はID/OOD性能を維持するが、敵攻撃に弱いモデルを残す。
我々の重要な洞察は、ロバスト性トレードオフは、パラメータ空間における鋭く異方性のある最小値と、摂動下で変形する不安定な特徴表現の2つの幾何学的失敗に由来するということである。
本稿では,パラメータ空間の曲率と特徴空間の不変性を協調的に正規化する,統一的な微調整フレームワークGRACEを提案する。
- 参考スコア(独自算出の注目度): 29.489099268602544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning approaches for Vision-Language Models (VLMs) face a critical three-way trade-off between In-Distribution (ID) accuracy, Out-of-Distribution (OOD) generalization, and adversarial robustness. Existing robust fine-tuning strategies resolve at most two axes of this trade-off. Generalization-preserving methods retain ID/OOD performance but leave models vulnerable to adversarial attacks, while adversarial training improves robustness to targeted attacks but degrades ID/OOD accuracy. Our key insight is that the robustness trade-off stems from two geometric failures: sharp, anisotropic minima in parameter space and unstable feature representations that deform under perturbation. To address this, we propose GRACE (Gram-aligned Robustness via Adaptive Curvature Estimation), a unified fine-tuning framework that jointly regularizes the parameter-space curvature and feature-space invariance for VLMs. Grounded in Robust PAC-Bayes theory, GRACE employs adaptive weight perturbations scaled by local curvature to promote flatter minima, combined with a feature alignment loss that maintains representation consistency across clean, adversarial, and OOD inputs. On ImageNet fine-tuning of CLIP models, GRACE simultaneously improves ID accuracy by 10.8%, and adversarial accuracy by 13.5% while maintaining 57.0% OOD accuracy (vs. 57.4% zero-shot baseline). Geometric analysis confirms that GRACE converges to flatter minima without feature distortion across distribution shifts, providing a principled step toward generalized robustness in foundation VLMs.
- Abstract(参考訳): VLM(Vision-Language Models)の微調整アプローチは、In-Distribution (ID)の精度、Out-of-Distribution (OOD)の一般化、および敵のロバスト性の間の重要な3方向のトレードオフに直面している。
既存の堅牢な微調整戦略は、このトレードオフの少なくとも2つの軸で解決する。
一般化保存法はID/OOD性能を維持するが、敵の攻撃に弱いモデルを残し、敵の訓練は攻撃に対する堅牢性を向上するが、ID/OODの精度は低下する。
我々の重要な洞察は、ロバスト性トレードオフは、パラメータ空間における鋭く異方性のある最小値と、摂動下で変形する不安定な特徴表現の2つの幾何学的失敗に由来するということである。
そこで本研究では,パラメータ空間の曲率と特徴空間の不変性を協調的に正規化する統一的な微調整フレームワークGRACEを提案する。
Robust PAC-Bayes理論に基づくGRACEは、局所曲率によってスケールされた適応的な重みの摂動を用いて、平坦なミニマを推進し、クリーン、対向、OOD入力間の表現整合性を維持する特徴的アライメント損失と組み合わせる。
ImageNetによるCLIPモデルの微調整では、GRACEは同時にIDの精度を10.8%改善し、敵の精度を13.5%向上し、57.0% OODの精度を維持した(57.4%ゼロショットベースライン)。
幾何解析により、GRACEは分布シフト間の特徴歪みを伴わずに平坦なミニマに収束し、基礎VLMにおける一般化ロバスト性への原則的なステップを提供する。
関連論文リスト
- What Makes VLMs Robust? Towards Reconciling Robustness and Accuracy in Vision-Language Models [64.99746027349767]
Adversarial Robustness Adaptation (R-Adapt)は、トレーニング済みのすべての重みを凍結し、初期層のみに限って最小限の洞察駆動適応を導入するフレームワークである。
R-Adaptは、大きな視覚言語モデル(LLaVAやQwen-VLなど)に効率よく一般化し、ロバスト性を高める。
論文 参考訳(メタデータ) (2026-03-13T09:02:11Z) - Margin and Consistency Supervision for Calibrated and Robust Vision Models [1.0152838128195467]
Margin and Consistency Supervision (MaCS)は、アーキテクチャに依存しないシンプルな正規化フレームワークである。
MACSはロジト空間分離と局所予測安定性を共同で実施する。
我々は,リプシッツ型安定性プロキシにより定式化された局所感度を低下させながら,分類マージンを増大させることにより,一般化の保証が向上することを示した。
論文 参考訳(メタデータ) (2026-03-06T01:54:28Z) - Zubov-Net: Adaptive Stability for Neural ODEs Reconciling Accuracy with Robustness [0.16355471507854133]
本稿ではZubovNetという適応型安定学習フレームワークを提案する。
本稿では,PRoAsを直接最適化することで,ロアの形状を積極的に制御する新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2025-09-26T05:01:51Z) - Adaptive Dual Uncertainty Optimization: Boosting Monocular 3D Object Detection under Test-Time Shifts [80.32933059529135]
TTA(Test-Time Adaptation)メソッドが出現し、推論中にターゲット分布に適応する。
我々は、堅牢なM3ODの両不確実性を共同で最小化するために設計された、最初のTTAフレームワークであるDual Uncertainity Optimization (DUO)を提案する。
並列に,明瞭な意味的手がかりを持つ領域における幾何学的コヒーレンスを保存する意味認識型正規場制約を設計する。
論文 参考訳(メタデータ) (2025-08-28T07:09:21Z) - SR-Stereo & DAPE: Stepwise Regression and Pre-trained Edges for Practical Stereo Matching [2.8908326904081334]
ドメインの相違を克服する新しい段階的回帰アーキテクチャを提案する。
疎基底真理で新しいドメインを適応するモデルのエッジ認識を高めるために,事前学習エッジ(DAPE)に基づくドメイン適応を提案する。
提案したSR-StereoとDAPEは,SceneFlow,KITTI,Middbury 2014,ETH3Dで広く評価されている。
論文 参考訳(メタデータ) (2024-06-11T05:25:25Z) - Towards Calibrated Robust Fine-Tuning of Vision-Language Models [97.19901765814431]
本研究は、視覚言語モデルにおいて、OOD精度と信頼性校正の両方を同時に改善する頑健な微調整法を提案する。
OOD分類とOOD校正誤差は2つのIDデータからなる共有上限を持つことを示す。
この知見に基づいて,最小の特異値を持つ制約付きマルチモーダルコントラスト損失を用いて微調整を行う新しいフレームワークを設計する。
論文 参考訳(メタデータ) (2023-11-03T05:41:25Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。