論文の概要: Training-Only Heterogeneous Image-Patch-Text Graph Supervision for Advancing Few-Shot Learning Adapters
- arxiv url: http://arxiv.org/abs/2603.18101v1
- Date: Wed, 18 Mar 2026 12:03:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.764163
- Title: Training-Only Heterogeneous Image-Patch-Text Graph Supervision for Advancing Few-Shot Learning Adapters
- Title(参考訳): Few-Shot Learning Adapters の訓練用不均一画像パッチテキストグラフスーパービジョン
- Authors: Mohammed Rahman Sherif Khan Mohammad, Ardhendu Behera, Sandip Pradhan, Swagat Kumar, Amr Ahmed,
- Abstract要約: 最近のアダプタベースのCLIPチューニング(Tip-Adapterなど)は、高速なプロトタイプマッチングのためのキャッシュ機能によって効率を向上する。
推論コストを発生させることなく、このギャップを埋める新しい非対称なトレーニング専用フレームワークを導入する。
提案手法は,標準1-16ショットのベンチマークにおいて常に新しい最先端のベンチマークを確立する。
- 参考スコア(独自算出の注目度): 4.273177030613628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent adapter-based CLIP tuning (e.g., Tip-Adapter) is a strong few-shot learner, achieving efficiency by caching support features for fast prototype matching. However, these methods rely on global uni-modal feature vectors, overlooking fine-grained patch relations and their structural alignment with class text. To bridge this gap without incurring inference costs, we introduce a novel asymmetric training-only framework. Instead of altering the lightweight adapter, we construct a high-capacity auxiliary Heterogeneous Graph Teacher that operates solely during training. This teacher (i) integrates multi-scale visual patches and text prompts into a unified graph, (ii) performs deep cross-modal reasoning via a Modality-aware Graph Transformer (MGT), and (iii) applies discriminative node filtering to extract high-fidelity class features. Crucially, we employ a cache-aware dual-objective strategy to supervise this relational knowledge directly into the Tip-Adapter's key-value cache, effectively upgrading the prototypes while the graph teacher is discarded at test time. Thus, inference remains identical to Tip-Adapter with zero extra latency or memory. Across standard 1-16-shot benchmarks, our method consistently establishes a new state-of-the-art. Ablations confirm that the auxiliary graph supervision, text-guided reasoning, and node filtering are the essential ingredients for robust few-shot adaptation. Code is available at https://github.com/MR-Sherif/TOGA.git.
- Abstract(参考訳): 最近のアダプタベースのCLIPチューニング(例えば、Tip-Adapter)は、強力な数ショット学習者であり、高速なプロトタイプマッチングのためのキャッシュサポート機能によって効率を向上する。
しかし、これらの手法は、大域的な一様特徴ベクトルに依存し、きめ細かいパッチ関係とクラステキストとの構造的整合性を見落としている。
推論コストを発生させることなく、このギャップを埋めるために、新しい非対称なトレーニング専用フレームワークを導入する。
ライトウェイトアダプタを変更する代わりに、トレーニング中にのみ動作する高容量補助ヘテロジニアスグラフ教師を構築する。
この先生
(i)マルチスケールの視覚パッチとテキストプロンプトを統一グラフに統合する。
(ii)Modality-aware Graph Transformer(MGT)を介して、ディープ・クロスモーダル推論を行う。
3)高忠実度クラスの特徴を抽出するために識別ノードフィルタリングを適用する。
重要なのは、この関係知識を直接Tip-Adapterのキー値キャッシュに監視するためにキャッシュ対応のデュアルオブジェクト戦略を採用し、グラフ教師がテスト時に破棄される間、プロトタイプを効果的にアップグレードする。
したがって、推論は追加のレイテンシやメモリがゼロのTip-Adapterと同じである。
標準の1-16ショットのベンチマークで、我々の手法は一貫して新しい最先端技術を確立している。
アブレーションは、グラフの補助的監督、テキスト誘導推論、ノードフィルタリングが、頑健な少数ショット適応に欠かせない要素であることを確認した。
コードはhttps://github.com/MR-Sherif/TOGA.gitで入手できる。
関連論文リスト
- Semi-supervised Instruction Tuning for Large Language Models on Text-Attributed Graphs [62.544129365882014]
本稿では,SIT-Graph というグラフ学習用セミ教師付きインストラクションチューニングパイプラインを提案する。
SIT-Graphはモデルに依存しず、LSMを予測子として利用するグラフ命令チューニングメソッドにシームレスに統合することができる。
SIT-Graphは、最先端グラフチューニング手法に組み込むと、テキスト分散グラフベンチマークの性能を大幅に向上することを示した。
論文 参考訳(メタデータ) (2026-01-19T08:10:53Z) - ProKeR: A Kernel Perspective on Few-Shot Adaptation of Large Vision-Language Models [8.66217922377209]
Contrastive Language-Image Pretraining (CLIP)は、様々な視覚的下流タスクに広く応用されている。
本稿ではカーネルの観点からTip-Adapterを再検討し、キャッシュメソッドがローカルアダプタとして機能することを示す。
本稿では,CLIPをベースラーナとして,再現カーネルHilbert空間における近似正規化子を学習するグローバルな手法を提案する。
論文 参考訳(メタデータ) (2025-01-19T21:25:53Z) - HeGraphAdapter: Tuning Multi-Modal Vision-Language Models with Heterogeneous Graph Adapter [19.557300178619382]
本稿では,下流タスクに対するVLMのチューニングを実現するために,新しいヘテロジニアスグラフアダプタを提案する。
我々は、下流タスクの多モード構造知識を探索するために、特定の不均一グラフニューラルネットワークを用いる。
11のベンチマークデータセットの実験結果は、提案したHeGraphAdapterの有効性とメリットを示している。
論文 参考訳(メタデータ) (2024-10-10T12:20:58Z) - p-Laplacian Adaptation for Generative Pre-trained Vision-Language Models [10.713680139939354]
大きなコーパスで事前訓練された視覚言語モデル(VLM)は、下流のタスクで顕著な成功を収めている。
PETLはフル微調整の代替として注目されている。
グラフニューラルネットワーク(GNN)において,$p$-Laplacianメッセージパッシングを利用する新しいアダプタアーキテクチャである$p$-adapterを提案する。
論文 参考訳(メタデータ) (2023-12-17T05:30:35Z) - Class Incremental Learning with Pre-trained Vision-Language Models [59.15538370859431]
本稿では、事前学習された視覚言語モデル(例えば、CLIP)を利用して、さらなる適応を可能にするアプローチを提案する。
いくつかの従来のベンチマークの実験は、常に現在の最先端よりも顕著な改善のマージンを示している。
論文 参考訳(メタデータ) (2023-10-31T10:45:03Z) - GraphAdapter: Tuning Vision-Language Models With Dual Knowledge Graph [63.81641578763094]
適応型効率的な伝達学習(ETL)は視覚言語モデル(VLM)のチューニングにおいて優れた性能を示した
本稿では,2つのモーダリティ構造知識を明示的にモデル化し,テキストアダプティブを実行する,GraphAdapterと呼ばれる効果的なアダプタスタイルチューニング戦略を提案する。
特に、二重知識グラフは、2つのサブグラフ、すなわちテキスト知識のサブグラフと視覚知識のサブグラフで成り立っており、ノードとエッジはそれぞれ2つのモダリティのセマンティクス/クラスとそれらの相関を表す。
論文 参考訳(メタデータ) (2023-09-24T12:56:40Z) - Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification [58.06983806317233]
対照的に、CLIPとして知られる事前学習は、大規模な画像テキストペアを使用して視覚表現を学ぶための新しいパラダイムを提供する。
CLIPの適応性を高めるため、既存のメソッドは学習可能なモジュールを微調整する。
そこで本研究では,Tip-Adapterと呼ばれる少数ショット分類を行うためのCLIPのトレーニングフリー適応手法を提案する。
論文 参考訳(メタデータ) (2022-07-19T19:12:11Z) - CLIP-Adapter: Better Vision-Language Models with Feature Adapters [84.88106370842883]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
CLIP-Adapterは新たなボトルネックレイヤを採用して、新機能を学び、残留スタイルの機能ブレンディングを実行する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-10-09T11:39:30Z) - Prior Guided Feature Enrichment Network for Few-Shot Segmentation [64.91560451900125]
最先端のセマンティックセグメンテーション手法は、良い結果を得るために十分なラベル付きデータを必要とする。
少数のラベル付きサポートサンプルを持つ新しいクラスに迅速に適応するモデルを学習することで,この問題に対処するためのショットセグメンテーションが提案されている。
これらのフレームワークは、高レベルのセマンティック情報の不適切な使用により、目に見えないクラスにおける一般化能力の低下という課題に直面している。
論文 参考訳(メタデータ) (2020-08-04T10:41:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。