論文の概要: Enhancing Multimodal In-Context Learning for Image Classification through Coreset Optimization
- arxiv url: http://arxiv.org/abs/2504.14200v1
- Date: Sat, 19 Apr 2025 06:26:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 04:21:50.846284
- Title: Enhancing Multimodal In-Context Learning for Image Classification through Coreset Optimization
- Title(参考訳): コアセット最適化による画像分類のためのマルチモーダルインコンテキスト学習の強化
- Authors: Huiyi Chen, Jiawei Peng, Kaihua Tang, Xin Geng, Xu Yang,
- Abstract要約: In-context Learning (ICL)により、LVLM(Large Vision-Language Models)はパラメータを更新せずに新しいタスクに適応できる。
本稿では,キーベースコアセット最適化(KeCO)を提案する。
KeCOは画像分類タスクのICL性能を効果的に向上し、平均20%以上の改善を実現している。
- 参考スコア(独自算出の注目度): 45.48642232138223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In-context learning (ICL) enables Large Vision-Language Models (LVLMs) to adapt to new tasks without parameter updates, using a few demonstrations from a large support set. However, selecting informative demonstrations leads to high computational and memory costs. While some methods explore selecting a small and representative coreset in the text classification, evaluating all support set samples remains costly, and discarded samples lead to unnecessary information loss. These methods may also be less effective for image classification due to differences in feature spaces. Given these limitations, we propose Key-based Coreset Optimization (KeCO), a novel framework that leverages untapped data to construct a compact and informative coreset. We introduce visual features as keys within the coreset, which serve as the anchor for identifying samples to be updated through different selection strategies. By leveraging untapped samples from the support set, we update the keys of selected coreset samples, enabling the randomly initialized coreset to evolve into a more informative coreset under low computational cost. Through extensive experiments on coarse-grained and fine-grained image classification benchmarks, we demonstrate that KeCO effectively enhances ICL performance for image classification task, achieving an average improvement of more than 20\%. Notably, we evaluate KeCO under a simulated online scenario, and the strong performance in this scenario highlights the practical value of our framework for resource-constrained real-world scenarios.
- Abstract(参考訳): In-context Learning (ICL)は、大規模ビジョンランゲージモデル(LVLM)がパラメータ更新なしで新しいタスクに適応できるようにする。
しかし、情報的なデモンストレーションを選択すると、高い計算コストとメモリコストが発生する。
テキスト分類において、小さな代表的コアセットの選択を検討する方法もあるが、すべてのサポートセットのサンプルを評価することはコストがかかり、破棄されたサンプルは不要な情報を失う。
これらの手法は特徴空間の違いにより画像分類に効果が低い可能性がある。
これらの制約を考慮し,キーベースコアセット最適化(KeCO)を提案する。
コアセット内のキーとして視覚的特徴を導入し、異なる選択戦略によって更新されるサンプルを特定するアンカーとして機能する。
サポートセットから未使用のサンプルを活用することで、選択したコアセットのキーを更新し、ランダムに初期化されたコアセットを計算コストの低いコアセットに進化させることができる。
粗粒度および細粒度画像分類ベンチマークの広範な実験を通じて,KeCOは画像分類タスクのICL性能を効果的に向上し,20倍以上の平均改善を実現していることを示す。
特に、オンラインシナリオのシミュレーションに基づいてKeCOを評価し、このシナリオにおける強力なパフォーマンスは、リソース制約された実世界のシナリオに対する我々のフレームワークの実践的価値を強調します。
関連論文リスト
- Non-Uniform Class-Wise Coreset Selection: Characterizing Category Difficulty for Data-Efficient Transfer Learning [19.152700266277247]
Non-Uniform Class-Wise Coreset Selection (NUCS)は、クラスレベルとインスタンスレベルの両方の基準を統合する新しいフレームワークである。
我々の研究は、コアセット選択におけるカテゴリの難しさを特徴づけることの重要性を強調し、転送学習のための堅牢でデータ効率のよいソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-17T15:40:51Z) - Seeing What Matters: Empowering CLIP with Patch Generation-to-Selection [54.21851618853518]
本稿では,CLIPのトレーニング効率を高めるために,パッチ生成と選択という簡潔で効果的なアプローチを提案する。
私たちのアプローチであるCLIP-PGSは、ゼロショット分類と検索タスクにおいて、新しい最先端結果を設定する。
論文 参考訳(メタデータ) (2025-03-21T12:10:38Z) - Picking the Cream of the Crop: Visual-Centric Data Selection with Collaborative Agents [62.616106562146776]
textbfVisual-Centric textbfSelection approach by textbfAgents Collaboration (ViSA)を提案する。
提案手法は,(1)視覚エージェントの協調による画像情報定量化手法により,リッチな視覚情報を持つ画像を選択する方法,(2)高品質な画像に関連する高品質な画像を選択する視覚中心の指示品質評価手法からなる。
論文 参考訳(メタデータ) (2025-02-27T09:37:30Z) - Active Prompt Learning with Vision-Language Model Priors [9.173468790066956]
視覚言語モデルの事前学習画像とテキストエンコーダを利用するクラス誘導クラスタリングを提案する。
適応型クラスワイドしきい値に基づく予算削減型選択クエリを提案する。
論文 参考訳(メタデータ) (2024-11-23T02:34:33Z) - FlashEval: Towards Fast and Accurate Evaluation of Text-to-image Diffusion Generative Models [28.44922164328789]
テキストから画像への生成モデルの評価は、開発プロセスにおける重要なステップである。
データ選択の評価に適した反復探索アルゴリズムであるFlashEvalを提案する。
検索した50-itemサブセットは,COCOアノテーションのランダムサンプリング500-itemサブセットに匹敵する評価精度が得られた。
論文 参考訳(メタデータ) (2024-03-25T02:53:32Z) - Boosting Few-Shot Segmentation via Instance-Aware Data Augmentation and
Local Consensus Guided Cross Attention [7.939095881813804]
少ないショットセグメンテーションは、注釈付き画像のみを提供する新しいタスクに迅速に適応できるセグメンテーションモデルをトレーニングすることを目的としている。
本稿では,対象オブジェクトの相対的サイズに基づいて,サポートイメージを拡大するIDA戦略を提案する。
提案したIDAは,サポートセットの多様性を効果的に向上し,サポートイメージとクエリイメージ間の分散一貫性を促進する。
論文 参考訳(メタデータ) (2024-01-18T10:29:10Z) - Refined Coreset Selection: Towards Minimal Coreset Size under Model
Performance Constraints [69.27190330994635]
コアセットの選択は、計算コストの削減とディープラーニングアルゴリズムのデータ処理の高速化に強力である。
本稿では,モデル性能とコアセットサイズに対する最適化優先順序を維持する革新的な手法を提案する。
実験的に、広範な実験によりその優位性が確認され、しばしばより小さなコアセットサイズでモデル性能が向上する。
論文 参考訳(メタデータ) (2023-11-15T03:43:04Z) - Novel Class Discovery in Semantic Segmentation [104.30729847367104]
セマンティックにおける新しいクラス発見(NCDSS)について紹介する。
ラベル付き非結合クラスの集合から事前の知識を与えられた新しいクラスを含むラベル付きイメージのセグメンテーションを目的としている。
NCDSSでは、オブジェクトと背景を区別し、画像内の複数のクラスの存在を処理する必要があります。
本稿では,エントロピーに基づく不確実性モデリングと自己学習(EUMS)フレームワークを提案し,ノイズの多い擬似ラベルを克服する。
論文 参考訳(メタデータ) (2021-12-03T13:31:59Z) - Online Coreset Selection for Rehearsal-based Continual Learning [65.85595842458882]
継続的な学習では、後に再生されるトレーニング例(コアセット)のサブセットを格納し、破滅的な忘れを軽減します。
提案するオンラインコアセット選択(OCS, Online Coreset Selection)は, 各イテレーションにおいて最も代表的で情報性の高いコアセットを選択するシンプルで効果的な方法である。
提案手法は,過去のタスクに対して高親和性サンプルを選択しながら,目標データセットへのモデル適応を最大化し,破滅的忘れを直接的に抑制する。
論文 参考訳(メタデータ) (2021-06-02T11:39:25Z) - Weakly-supervised Object Localization for Few-shot Learning and
Fine-grained Few-shot Learning [0.5156484100374058]
少数のサンプルから新しい視覚カテゴリーを学習することを目的としている。
本稿では,自己認識型補完モジュール(SACモジュール)を提案する。
また,数発の分類のために,識別的深層記述子を選択するためのアクティブマスクも生成する。
論文 参考訳(メタデータ) (2020-03-02T14:07:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。