論文の概要: PictSure: Pretraining Embeddings Matters for In-Context Learning Image Classifiers
- arxiv url: http://arxiv.org/abs/2506.14842v1
- Date: Mon, 16 Jun 2025 08:57:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.422468
- Title: PictSure: Pretraining Embeddings Matters for In-Context Learning Image Classifiers
- Title(参考訳): PictSure: 文脈内学習画像分類のための埋め込みの事前学習
- Authors: Lukas Schiesser, Cornelius Wolff, Sophie Haas, Simon Pukrop,
- Abstract要約: In-context Learning (ICL) は、マイクロショット画像分類(FSIC)のための有望なパラダイムとして登場した。
私たちは、組み込みモデル(アーキテクチャ、事前トレーニング、トレーニングのダイナミクス)を分析の中心に配置するICLフレームワークであるPictSureを紹介します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building image classification models remains cumbersome in data-scarce domains, where collecting large labeled datasets is impractical. In-context learning (ICL) has emerged as a promising paradigm for few-shot image classification (FSIC), enabling models to generalize across domains without gradient-based adaptation. However, prior work has largely overlooked a critical component of ICL-based FSIC pipelines: the role of image embeddings. In this work, we present PictSure, an ICL framework that places the embedding model -- its architecture, pretraining, and training dynamics -- at the center of analysis. We systematically examine the effects of different visual encoder types, pretraining objectives, and fine-tuning strategies on downstream FSIC performance. Our experiments show that the training success and the out-of-domain performance are highly dependent on how the embedding models are pretrained. Consequently, PictSure manages to outperform existing ICL-based FSIC models on out-of-domain benchmarks that differ significantly from the training distribution, while maintaining comparable results on in-domain tasks. Code can be found at https://github.com/PictSure/pictsure-library.
- Abstract(参考訳): 画像分類モデルの構築は、大規模なラベル付きデータセットの収集が現実的でないデータスカースドメインでは、いまだに困難である。
In-context Learning (ICL) は、数ショット画像分類(FSIC)のための有望なパラダイムとして登場し、勾配に基づく適応なしにドメインをまたいでモデルを一般化することができる。
しかし、以前の作業は、ICLベースのFSICパイプラインの重要なコンポーネントであるイメージ埋め込みの役割を概ね見落としていた。
In this work, we present PictSure, a ICL framework that the embeddedding model -- its architecture, pretraining, and training dynamics -- を解析の中心に配置する。
我々は,異なる視覚エンコーダタイプ,事前学習目標,微調整戦略が下流FSIC性能に与える影響を系統的に検討した。
実験の結果,トレーニングの成功とドメイン外性能は,組込みモデルの事前訓練方法に大きく依存していることが判明した。
その結果、PictSureは既存のICLベースのFSICモデルをトレーニングディストリビューションと大きく異なるドメイン外のベンチマークで上回り、ドメイン内のタスクで同等の結果を維持することができる。
コードはhttps://github.com/PictSure/pictsure-libraryで見ることができる。
関連論文リスト
- High-Performance Few-Shot Segmentation with Foundation Models: An Empirical Study [64.06777376676513]
基礎モデルに基づく数ショットセグメンテーション(FSS)フレームワークを開発した。
具体的には、基礎モデルから暗黙的な知識を抽出し、粗い対応を構築するための簡単なアプローチを提案する。
2つの広く使われているデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-10T08:04:11Z) - Physically Feasible Semantic Segmentation [58.17907376475596]
最先端セマンティックセグメンテーションモデルは通常、データ駆動方式で最適化される。
この純粋にデータ駆動のパラダイムは、特にトレーニング中に遭遇した領域から入力画像の領域がシフトした場合、しばしば不条理なセグメンテーションにつながる。
我々の方法であるPhyFea(PhyFea)は、まず、オフラインデータ駆動方式で手元に設定したセグメンテーショントレーニングから空間クラス関係を規定する明示的な制約を抽出し、これらの制約の違反を罰する形態的かつ差別的な損失を強制する。
論文 参考訳(メタデータ) (2024-08-26T22:39:08Z) - HazeCLIP: Towards Language Guided Real-World Image Dehazing [62.4454483961341]
既存の手法は、特に合成データセットにおいて、画像のデハージングにおいて顕著な性能を達成した。
本稿では,事前学習型デハジングネットワークの性能向上を目的とした言語誘導適応フレームワークHazeCLIPを紹介する。
論文 参考訳(メタデータ) (2024-07-18T17:18:25Z) - Memory-guided Network with Uncertainty-based Feature Augmentation for Few-shot Semantic Segmentation [12.653336728447654]
学習可能なメモリベクトルの集合からなるクラス共有メモリ(CSM)モジュールを提案する。
これらのメモリベクトルは、トレーニング中にベースクラスから要素オブジェクトパターンを学習し、トレーニングと推論の両方でクエリ機能を再エンコードする。
我々は、CSMとUFAを代表的FSS作品に統合し、広く使われているPASCAL-5$i$とCOCO-20$i$データセットの実験結果を得た。
論文 参考訳(メタデータ) (2024-06-01T19:53:25Z) - Scaling Laws of Synthetic Images for Model Training ... for Now [54.43596959598466]
本研究では, 合成画像のスケーリング法則について, テクスト・ツー・イメージ・モデルの現状から検討した。
合成画像は、CLIPトレーニングの実際の画像と似ているが、やや効果の低いスケーリング傾向を示す。
論文 参考訳(メタデータ) (2023-12-07T18:59:59Z) - In-Domain Self-Supervised Learning Improves Remote Sensing Image Scene
Classification [5.323049242720532]
リモートセンシング画像分類のための有望なアプローチとして,自己教師付き学習が登場している。
そこで本研究では,14の下流データセットにまたがる自己教師型事前学習戦略について検討し,その効果を評価する。
論文 参考訳(メタデータ) (2023-07-04T10:57:52Z) - Foundational Models for Continual Learning: An Empirical Study of Latent
Replay [17.322679682451597]
本稿では,下流の連続学習シナリオの基礎として,事前学習型視覚モデルの有効性について検討する。
大規模ベンチマークシナリオにおける各種事前学習モデルの有効性を,潜時および生データ空間におけるバニラ再生設定と比較した。
論文 参考訳(メタデータ) (2022-04-30T19:11:37Z) - On Efficient Transformer and Image Pre-training for Low-level Vision [74.22436001426517]
プレトレーニングは、ハイレベルコンピュータビジョンにおける多くの最先端の芸術である。
画像事前学習の詳細な研究について述べる。
低レベルのタスクでは,事前トレーニングが極めて異なる役割を担っています。
論文 参考訳(メタデータ) (2021-12-19T15:50:48Z) - DAFormer: Improving Network Architectures and Training Strategies for
Domain-Adaptive Semantic Segmentation [99.88539409432916]
教師なしドメイン適応(UDA)プロセスについて検討する。
ベンチマーク結果に基づいて,新しい UDA 手法である DAFormer を提案する。
DAFormerは,GTA->Cityscapesの10.8 mIoU,Synthia->Cityscapesの5.4 mIoUにより,最先端の性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-11-29T19:00:46Z) - Benchmarking the Robustness of Instance Segmentation Models [7.1699725781322465]
本稿では,実世界の画像の破損や領域外画像の収集に関して,インスタンス分割モデルの包括的評価を行う。
グループ正規化は、画像の内容が同じだが、上に汚職が加えられている汚職間のネットワークの堅牢性を高める。
また、単段検出器はトレーニングサイズよりも画像解像度が大きくなるほど一般化しないことがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:50:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。