論文の概要: Hierarchically Robust Zero-shot Vision-language Models
- arxiv url: http://arxiv.org/abs/2604.18867v1
- Date: Mon, 20 Apr 2026 21:42:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.511779
- Title: Hierarchically Robust Zero-shot Vision-language Models
- Title(参考訳): 階層的にロバストなゼロショット視覚言語モデル
- Authors: Junhao Dong, Yifei Zhang, Hao Zhu, Yew-Soon Ong, Piotr Koniusz,
- Abstract要約: VLM(Vision-Language Models)はゼロショット分類を行うことができるが、敵攻撃の影響を受けやすい。
既存のアプローチは、固定されたテキスト埋め込みをイメージ埋め込みと整合させ、自然なパフォーマンスと堅牢性を犠牲にする。
本稿では,階層的な埋め込みと画像・テキスト・モダリティの対角的ロバストなアライメントに基づく,新しい逆方向の微調整フレームワークを提案する。
- 参考スコア(独自算出の注目度): 74.79155369056639
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) can perform zero-shot classification but are susceptible to adversarial attacks. While robust fine-tuning improves their robustness, existing approaches align fixed text embeddings with an image embedding, sacrificing natural performance and robustness. A robustness degradation also occurs when a model faces adversarial attacks targeting superclasses (parent classes, e.g., mammal) in addition to their base (leaf) classes (e.g., cat). Thus, to enhance adversarial robustness and leverage the inherent hierarchical properties of class space, we propose a novel adversarial fine-tuning framework based on hierarchical embeddings and several levels of adversarially robust alignment of image-text modalities. Additional mechanisms place visual embeddings at the desired depth of hierarchy, and we provide a theoretical connection between the depth of embedding in the hierarchy and the maximum viable margin size. Our model naturally realizes several margin sizes, boosting generalization of adversaries for robustification. As various trees with different parent labels can share the same leaf labels, we also consider aligning over multiple trees to boost semantic variety. Experiments across several datasets are performed.
- Abstract(参考訳): VLM(Vision-Language Models)はゼロショット分類を行うことができるが、敵攻撃の影響を受けやすい。
堅牢な微調整は、その堅牢性を改善する一方で、既存のアプローチは、固定されたテキスト埋め込みをイメージ埋め込みと整合させ、自然なパフォーマンスと堅牢性を犠牲にする。
モデルが、ベースクラス(eg、猫)に加えて、スーパークラス(親クラス、eg、哺乳類)をターゲットにした敵対的攻撃に直面した場合にも、ロバストネスの低下が生じる。
そこで, クラス空間の固有階層性を活用し, 対角的ロバスト性を高めるために, 階層的埋め込みと複数レベルの対角的ロバストな画像-テキストモダリティのアライメントに基づく, 新たな対角的微調整フレームワークを提案する。
付加的なメカニズムは、所望の階層深度に視覚的埋め込みを配置し、階層の埋め込み深度と最大有効マージンサイズとの理論的関係を提供する。
我々のモデルは自然にいくつかのマージンサイズを実現し、ロバスト化のための敵の一般化を促進する。
異なる親ラベルを持つ様々な木は同じ葉のラベルを共有できるため、複数の木にまたがってセマンティックな多様性を高めることも検討する。
いくつかのデータセットに対する実験が実施される。
関連論文リスト
- Hierarchy-Aware Fine-Tuning of Vision-Language Models [18.244518940229202]
視覚言語モデルは、大規模な画像テキスト事前学習を通じて強力なマルチモーダル表現を学習する。
標準的アプローチはラベルをフラットなカテゴリとして扱い、完全な微調整を必要とする。
構造的一貫性を保ちつつ,いくつかのパラメータを更新する,効率的な階層型微調整フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-25T06:44:33Z) - Modality Alignment across Trees on Heterogeneous Hyperbolic Manifolds [49.95082206008502]
ツリーを横断するアライメントは、画像とテキストのモダリティの両方に対してツリーのような階層的な特徴を構築し、調整する手法である。
本稿では,中間トランスフォーマー層からの視覚的クラストークンにクロスアテンション機構を適用した意味認識型視覚特徴抽出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-31T11:32:15Z) - Learning and Evaluating Hierarchical Feature Representations [3.770103075126785]
我々は、直交部分空間の階層的構成(Hier-COS)という新しい枠組みを提案する。
Hier-COSは、与えられた分類木の構造と整合した設計により、深い特徴埋め込みをベクトル空間にマッピングすることを学ぶ。
Hier-COSはすべてのデータセットにまたがって最先端の階層的パフォーマンスを実現し,同時に1つのケースを除いてトップ1の精度を上回ります。
論文 参考訳(メタデータ) (2025-03-10T20:59:41Z) - Harnessing Superclasses for Learning from Hierarchical Databases [1.835004446596942]
多くの大規模分類問題において、クラスは既知の階層に整理され、通常木として表される。
この種の教師付き階層分類の損失について紹介する。
提案手法では,クロスエントロピーの損失に比較して,計算コストの大幅な増大は伴わない。
論文 参考訳(メタデータ) (2024-11-25T14:39:52Z) - GrootVL: Tree Topology is All You Need in State Space Model [66.36757400689281]
GrootVLは、視覚的タスクとテキストタスクの両方に適用できる多目的マルチモーダルフレームワークである。
本手法は, 画像分類, オブジェクト検出, セグメンテーションにおいて, 既存の構造化状態空間モデルよりも大幅に優れる。
大規模言語モデルの微調整により,本手法は訓練コストの少ない複数のテキストタスクにおいて一貫した改善を実現する。
論文 参考訳(メタデータ) (2024-06-04T15:09:29Z) - Use All The Labels: A Hierarchical Multi-Label Contrastive Learning
Framework [75.79736930414715]
本稿では,すべての利用可能なラベルを活用でき,クラス間の階層的関係を維持できる階層型多言語表現学習フレームワークを提案する。
比較損失に階層的ペナルティを併用し,その階層的制約を強制する。
論文 参考訳(メタデータ) (2022-04-27T21:41:44Z) - Clustering Effect of (Linearized) Adversarial Robust Models [60.25668525218051]
本稿では, 敵の強靭性に対する新たな理解を提案し, ドメイン適応や頑健性向上といったタスクに適用する。
提案したクラスタリング戦略の合理性と優越性を実験的に評価した。
論文 参考訳(メタデータ) (2021-11-25T05:51:03Z) - Bi-level Feature Alignment for Versatile Image Translation and
Manipulation [88.5915443957795]
GAN(Generative Adversarial Network)は画像翻訳と操作において大きな成功を収めている。
忠実なスタイル制御を備えた高忠実な画像生成は、コンピュータビジョンにおいて依然として大きな課題である。
本稿では,高精度なセマンティック・スタイル・ガイダンスを実現する多機能な画像翻訳・操作フレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-07T05:26:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。