論文の概要: HAC: Parameter-Efficient Hyperbolic Adaptation of CLIP for Zero-Shot VQA
- arxiv url: http://arxiv.org/abs/2604.23665v1
- Date: Sun, 26 Apr 2026 11:43:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.489125
- Title: HAC: Parameter-Efficient Hyperbolic Adaptation of CLIP for Zero-Shot VQA
- Title(参考訳): HAC:Zero-Shot VQAのためのパラメータ効率の良いCLIPのハイパーボリック適応
- Authors: Francesco Dibitonto, Cigdem Beyan, Vittorio Murino,
- Abstract要約: 提案するHAC(Hyperbolic Adaptation of CLIP)は,事前学習したCLIPモデルが,軽量な微調整により双曲空間に遷移することを可能にするパラメータ効率のよいフレームワークである。
HACを視覚質問応答(VQA)に適用し、モデルが視覚要素を解釈し、それらをテキストクエリと整合させなければならない。
HAC-S (Small) と HAC-B (medium) は、ユークリッドの基底線とそれ以前の双曲的アプローチを一貫して上回っている。
- 参考スコア(独自算出の注目度): 10.408270076003769
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in representation learning have shown that hyperbolic geometry can offer a more expressive alternative to the Euclidean embeddings used in CLIP models, capturing hierarchical structures and leading to better-organized representations. However, current hyperbolic CLIP variants are trained entirely from scratch, which is computationally expensive and resource-intensive. In this work, we propose HAC (Hyperbolic Adaptation of CLIP), a parameter-efficient framework that enables pretrained CLIP models to transition into hyperbolic space via lightweight fine-tuning. We apply HAC to Visual Question Answering (VQA), where models must interpret visual elements and align them with textual queries. Notably, HAC's training is performed on a dataset with no overlap with any VQA benchmark, resulting in a strict zero-shot evaluation paradigm that underscores HAC's task-agnostic adaptability. We evaluate HAC across a diverse suite of VQA benchmarks spanning General, Reasoning, and OCR categories. Both HAC-S (small) and HAC-B (medium) consistently surpass Euclidean baselines and prior hyperbolic approaches, with HAC-B delivering up to a +1.9 point average improvement over CLIP-B on reasoning-intensive tasks. Our code is available at https://github.com/fdibiton/HAC
- Abstract(参考訳): 表現学習の最近の進歩は、双曲幾何学がCLIPモデルで使用されるユークリッドの埋め込みに代えて、より表現力のある表現を提供することを示した。
しかし、現在の双曲型CLIPは、計算コストが高くリソース集約的なスクラッチから完全に訓練されている。
本稿では,CLIPモデルが軽量な微調整により双曲空間に遷移することを可能にするパラメータ効率のフレームワークであるHAC(Hyperbolic Adaptation of CLIP)を提案する。
HACを視覚質問応答(VQA)に適用し、モデルが視覚要素を解釈し、それらをテキストクエリと整合させなければならない。
特に、HACのトレーニングはVQAベンチマークと重複しないデータセット上で行われ、その結果、HACのタスク非依存の適応性を裏付ける厳密なゼロショット評価パラダイムが実現される。
我々は、General、Reasoning、OCRのカテゴリにまたがる様々なVQAベンチマークでHACを評価した。
HAC-S (小) と HAC-B (中) はユークリッドのベースラインとそれ以前の双曲的アプローチを一貫して上回り、HAC-Bは推論集約的なタスクにおいて CLIP-B よりも+1.9ポイント平均的な改善を達成している。
私たちのコードはhttps://github.com/fdibiton/HACで利用可能です。
関連論文リスト
- Label-Free Cross-Task LoRA Merging with Null-Space Compression [50.63908869296697]
我々は,ラベルフリーで出力に依存しない手法であるNull-Space Compression (NSC) Mergingを紹介した。
NSCは、従来のメソッドがタスクのサブセットに収まるバランスの取れたゲインを持つ20の異種視覚タスクに対して、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-03-27T11:34:41Z) - CLIP's Visual Embedding Projector is a Few-shot Cornucopia [45.93202559299953]
最適化のために'external'パラメータを追加することなく、数ショットのCLIP適応のための代替手法を導入する。
視覚の埋め込みプロジェクション行列を微調整するだけで、すべてのベースラインよりも優れたパフォーマンスが得られることが分かりました。
この単純なアプローチはProLIPと呼ばれ、11個の数ショットの分類ベンチマーク、数ショットのクロスデータセットエンコーダ転送、ドメインの一般化、ベース・ツー・ニューなクラス一般化に最先端のパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2024-10-07T17:59:59Z) - FairerCLIP: Debiasing CLIP's Zero-Shot Predictions using Functions in RKHSs [24.991684983495542]
本稿では,CLIPのゼロショット予測をより公平かつ堅牢に行うための一般手法であるFairerCLIPを提案する。
ヒルベルト核空間(RKHS)の再生において,CLIPのイメージとテキスト表現を両立させる問題を定式化する。
論文 参考訳(メタデータ) (2024-03-22T19:41:26Z) - Hyperparameters in Continual Learning: A Reality Check [50.784080714897776]
連続学習(CL)は、可塑性(新しいタスクを学ぶ)と安定性(事前知識を保持する)のトレードオフをバランスしながら、一連のタスクでモデルを訓練することを目的としている。
論文 参考訳(メタデータ) (2024-03-14T03:13:01Z) - A Hard-to-Beat Baseline for Training-free CLIP-based Adaptation [121.0693322732454]
対照的に、CLIP(Contrastive Language- Image Pretraining)はその目覚ましいゼロショット能力で人気を集めている。
近年の研究では、下流タスクにおけるCLIPの性能を高めるための効率的な微調整手法の開発に焦点が当てられている。
従来のアルゴリズムであるガウス判別分析(GDA)を再検討し,CLIPの下流分類に適用する。
論文 参考訳(メタデータ) (2024-02-06T15:45:27Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。