論文の概要: Advancing Cache-Based Few-Shot Classification via Patch-Driven Relational Gated Graph Attention
- arxiv url: http://arxiv.org/abs/2512.12498v1
- Date: Sat, 13 Dec 2025 23:53:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.283946
- Title: Advancing Cache-Based Few-Shot Classification via Patch-Driven Relational Gated Graph Attention
- Title(参考訳): Patch-Driven Relational Gated Graph AttentionによるキャッシュベースのFew-Shot分類の改善
- Authors: Tasweer Ahmad, Arindam Sikdar, Sandip Pradhan, Ardhendu Behera,
- Abstract要約: 限られた監督下では、画像の分類は困難である。
最近のキャッシュベースの適応アプローチ(例えば、Tip-Adapter)は、この課題をある程度解決している。
画像内パッチ依存関係からキャッシュアダプタ重みを学習する,パッチ駆動リレーショナルリレーショナルリフレクションを導入する。
- 参考スコア(独自算出の注目度): 3.4693817403659515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot image classification remains difficult under limited supervision and visual domain shift. Recent cache-based adaptation approaches (e.g., Tip-Adapter) address this challenge to some extent by learning lightweight residual adapters over frozen features, yet they still inherit CLIP's tendency to encode global, general-purpose representations that are not optimally discriminative to adapt the generalist to the specialist's domain in low-data regimes. We address this limitation with a novel patch-driven relational refinement that learns cache adapter weights from intra-image patch dependencies rather than treating an image embedding as a monolithic vector. Specifically, we introduce a relational gated graph attention network that constructs a patch graph and performs edge-aware attention to emphasize informative inter-patch interactions, producing context-enriched patch embeddings. A learnable multi-aggregation pooling then composes these into compact, task-discriminative representations that better align cache keys with the target few-shot classes. Crucially, the proposed graph refinement is used only during training to distil relational structure into the cache, incurring no additional inference cost beyond standard cache lookup. Final predictions are obtained by a residual fusion of cache similarity scores with CLIP zero-shot logits. Extensive evaluations on 11 benchmarks show consistent gains over state-of-the-art CLIP adapter and cache-based baselines while preserving zero-shot efficiency. We further validate battlefield relevance by introducing an Injured vs. Uninjured Soldier dataset for casualty recognition. It is motivated by the operational need to support triage decisions within the "platinum minutes" and the broader "golden hour" window in time-critical UAV-driven search-and-rescue and combat casualty care.
- Abstract(参考訳): 限られた監督と視覚領域シフトの下では、画像分類が困難である。
最近のキャッシュベースの適応アプローチ(例えば、Tip-Adapter)は、凍結した特徴よりも軽量な残留アダプタを学習することで、この課題にある程度対処するが、それでもCLIPのグローバルで汎用的な表現をエンコードする傾向を継承する。
画像埋め込みをモノリシックベクターとして扱うのではなく、イメージ内のパッチ依存性からキャッシュアダプタの重みを学習する、パッチ駆動リレーショナルリレーショナルリフレクションにより、この制限に対処する。
具体的には,パッチグラフを構成するリレーショナルゲートグラフアテンションネットワークを導入し,エッジアウェアアテンションを実行して,情報的パッチ間相互作用を強調し,コンテキストに富んだパッチ埋め込みを生成する。
学習可能なマルチアグリゲーションプーリングは、これらをコンパクトなタスク識別表現に構成し、キャッシュキーとターゲットの少数ショットクラスとの整合性を改善する。
重要な点として、提案されたグラフ改善は、リレーショナル構造をキャッシュに排除するためにトレーニング中にのみ使用され、標準的なキャッシュルックアップ以上の追加の推論コストは発生しない。
最終的な予測は、キャッシュ類似度スコアとCLIPゼロショットロジットの残りの融合によって得られる。
11ベンチマークの大規模な評価では、最先端のCLIPアダプタとキャッシュベースのベースラインに対して、ゼロショット効率を保ちながら、一貫した利得を示している。
Injured vs. Uninjured Soldier データセットを導入することで、戦場の関連性をさらに検証する。
その動機は、時間クリティカルなUAVによる捜索救助および戦闘カウンティケアにおいて、"プラチナ分"とより広い"ゴールドアワー"ウィンドウ内でのトリアージ決定を支援する運用上の必要性にある。
関連論文リスト
- SubGCache: Accelerating Graph-based RAG with Subgraph-level KV Cache [20.26177496265456]
SubGCacheは、同じような構造的なプロンプトでクエリ間での計算を再利用することで、推論レイテンシを低減することを目的としている。
2つの新しいデータセットの実験では、SubGCacheは推論遅延を同等に減らし、生成品質も改善している。
論文 参考訳(メタデータ) (2025-05-16T07:39:41Z) - Compositional Caching for Training-free Open-vocabulary Attribute Detection [65.46250297408974]
オープンボキャブラリ属性検出のためのトレーニング不要なComcal Caching(ComCa)を提案する。
ComCaは、イメージの補助キャッシュをポップアップするために、ターゲット属性とオブジェクトのリストのみを入力として使用する。
パブリックデータセットの実験では、ComCaがゼロショットとキャッシュベースのベースラインを大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2025-03-24T21:00:37Z) - Seeing What Matters: Empowering CLIP with Patch Generation-to-Selection [54.21851618853518]
本稿では,CLIPのトレーニング効率を高めるために,パッチ生成と選択という簡潔で効果的なアプローチを提案する。
私たちのアプローチであるCLIP-PGSは、ゼロショット分類と検索タスクにおいて、新しい最先端結果を設定する。
論文 参考訳(メタデータ) (2025-03-21T12:10:38Z) - AttentionPredictor: Temporal Patterns Matter for KV Cache Compression [64.75459635661562]
我々は,KVキャッシュ圧縮とクリティカルトークン識別のための注意パターンを直接予測する,学習に基づく最初の手法であるAttentionPredictorを提案する。
AttentionPredictorは、注意スコアを正確に予測し、無視可能なメモリを消費する統一予測モデルを共有する。
注意情報の大半を保持することで、AttentionPredictorは、キャッシュオフロードシナリオで13$times$KVキャッシュ圧縮と5.6$times$スピードアップを達成する。
論文 参考訳(メタデータ) (2025-02-06T13:41:46Z) - Cross-Self KV Cache Pruning for Efficient Vision-Language Inference [19.062950348441426]
KVキャッシュプルーニングは、長文自動回帰生成におけるメモリと計算コストを削減するための有望な手法として登場した。
我々は、注意スコアをモダリティ内注意(同じモダリティ)とモダリティ間注意(全体モダリティ)に分解することを提案する。
最終的なトレーニング不要手法である textbfCross-textbfSelf textbfPruning (CSP) は、完全なKVキャッシュを持つモデルと比較して、競争性能が向上する。
論文 参考訳(メタデータ) (2024-12-05T22:47:17Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer Pre-Training [55.12082817901671]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはベースラインやコンペティターと同一のモデル設定で比較して,ImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - Accelerating Deep Learning Classification with Error-controlled
Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。
近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。
我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文 参考訳(メタデータ) (2021-12-13T13:49:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。