論文の概要: LR0.FM: Low-Resolution Zero-shot Classification Benchmark For Foundation Models
- arxiv url: http://arxiv.org/abs/2502.03950v2
- Date: Fri, 07 Feb 2025 08:40:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 11:34:26.592241
- Title: LR0.FM: Low-Resolution Zero-shot Classification Benchmark For Foundation Models
- Title(参考訳): LR0.FM: 基礎モデルの低解像度ゼロショット分類ベンチマーク
- Authors: Priyank Pathak, Shyam Marjit, Shruti Vyas, Yogesh S Rawat,
- Abstract要約: 視覚言語基礎モデル(FM)は、様々なタスクにまたがる顕著なゼロショットの一般化を示す。
しかし、現実のシナリオでは一般的な課題である低解像度/ピクセル化(LR)画像に対するロバスト性はいまだに未解明のままである。
66個のバックボーンと15個のデータセットにわたる10個のFM(s)のゼロショット分類性能に対する低解像度の影響を評価するベンチマークであるLR0.FMを紹介する。
- 参考スコア(独自算出の注目度): 15.756916492766372
- License:
- Abstract: Visual-language foundation Models (FMs) exhibit remarkable zero-shot generalization across diverse tasks, largely attributed to extensive pre-training on largescale datasets. However, their robustness on low-resolution/pixelated (LR) images, a common challenge in real-world scenarios, remains underexplored. We introduce LR0.FM, a comprehensive benchmark evaluating the impact of low resolution on the zero-shot classification performance of 10 FM(s) across 66 backbones and 15 datasets. We propose a novel metric, Weighted Aggregated Robustness, to address the limitations of existing metrics and better evaluate model performance across resolutions and datasets. Our key findings show that: (i) model size positively correlates with robustness to resolution degradation, (ii) pre-training dataset quality is more important than its size, and (iii) fine-tuned and higher resolution models are less robust against LR. Our analysis further reveals that the model makes semantically reasonable predictions at LR, and the lack of fine-grained details in input adversely impacts the model's initial layers more than the deeper layers. We use these insights and introduce a simple strategy, LR-TK0, to enhance the robustness of models without compromising their pre-trained weights. We demonstrate the effectiveness of LR-TK0 for robustness against low-resolution across several datasets and its generalization capability across backbones and other approaches. Code is available at https://github.com/shyammarjit/LR0.FM
- Abstract(参考訳): 視覚言語基盤モデル(FM)は、様々なタスクにまたがる顕著なゼロショットの一般化を示す。
しかし、現実のシナリオでは一般的な課題である低解像度/ピクセル化(LR)画像に対するロバスト性はいまだに未解明のままである。
66個のバックボーンと15個のデータセットにわたる10個のFM(s)のゼロショット分類性能に対する低解像度の影響を評価する総合ベンチマークであるLR0.FMを紹介する。
我々は、既存のメトリクスの限界に対処し、解像度とデータセットのモデル性能をよりよく評価するために、新しいメトリクス、Weighted Aggregated Robustnessを提案する。
私たちの重要な発見は以下のとおりです。
(i)モデルサイズは、分解能劣化に対する堅牢性と正に相関する。
(II)事前学習データセットの品質は、そのサイズよりも重要であり、
(iii)細調整された高解像度モデルはLRに対してより堅牢である。
さらに,このモデルがLRにおいて意味論的に合理的な予測を行い,入力の詳細な詳細が欠如すると,モデルの初期層はより深い層よりも悪影響を及ぼすことを明らかにした。
これらの知見を用いて、事前学習した重みを損なうことなくモデルの堅牢性を高めるため、LR-TK0という簡単な戦略を導入する。
LR-TK0の低分解能性に対する複数のデータセットに対するロバスト性の有効性と,バックボーンや他のアプローチに対する一般化能力を示す。
コードはhttps://github.com/shyammarjit/LR0.FMで入手できる。
関連論文リスト
- SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Revisiting Catastrophic Forgetting in Large Language Model Tuning [79.70722658190097]
Catastrophic Forgetting (CF) は、新しいデータを学ぶ際に獲得した知識を忘れるモデルを意味する。
本稿では,モデル損失景観の平坦度と大規模言語モデルの分野におけるCFの広さとの直接的な関係を明らかにするための第一歩を踏み出した。
様々なモデルスケールにまたがる3つの大規模微調整データセットの実験により,CFを緩和する手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-07T11:09:13Z) - Benchmarking Zero-Shot Robustness of Multimodal Foundation Models: A Pilot Study [61.65123150513683]
CLIPのようなマルチモーダル基盤モデルは、最先端のゼロショット結果を生成する。
これらのモデルは、ImageNetでトレーニングされた教師付きモデルのパフォーマンスを一致させることで、ロバスト性ギャップを埋めることが報告されている。
CLIPは、ベンチマーク上の教師付きImageNetモデルと比較して、かなりの堅牢性低下をもたらすことを示す。
論文 参考訳(メタデータ) (2024-03-15T17:33:49Z) - Efficiently Robustify Pre-trained Models [18.392732966487582]
大規模モデルの現実的な設定に対する堅牢性は、いまだ探索されていないトピックである。
まず、異なる摂動とデータセットの下でこれらのモデルのパフォーマンスをベンチマークします。
続いて、大規模ネットワークにおいて、モデルファインチューニングに基づく既存のロバスト化スキームが拡張性に欠ける可能性について論じる。
論文 参考訳(メタデータ) (2023-09-14T08:07:49Z) - Robustness Analysis on Foundational Segmentation Models [28.01242494123917]
本研究では,セグメンテーションタスクのためのVisual Foundation Models (VFM) のロバストネス解析を行う。
2つの異なるデータセットを使用して、7つの最先端セグメンテーションアーキテクチャをベンチマークする。
VFMは、強靭性において不定形モデルをすべて上回るものではないにもかかわらず、圧縮誘起汚損に対する脆弱性を示し、マルチモーダルモデルはゼロショットシナリオにおける競争力を示し、VFMは特定の対象カテゴリに対して強靭性を示す。
論文 参考訳(メタデータ) (2023-06-15T16:59:42Z) - Robustness-preserving Lifelong Learning via Dataset Condensation [11.83450966328136]
「破滅的忘れ」とは、新しいデータよりもモデルの精度が向上し、以前のデータよりも精度が保たれるという悪名高いジレンマを指す。
本稿では,現在のデータの「コアセット」を決定するために,現代の二段階最適化手法を活用する新しいメモリ再生LL戦略を提案する。
結果の LL フレームワークを 'Data-Efficient Robustness-Preserving LL' (DERPLL) と呼ぶ。
実験の結果, DERPLLは従来のコアセット誘導LLベースラインよりも優れていた。
論文 参考訳(メタデータ) (2023-03-07T19:09:03Z) - Estimating the Robustness of Classification Models by the Structure of
the Learned Feature-Space [10.418647759223964]
固定テストセットは、可能なデータバリエーションのごく一部しかキャプチャできないため、制限され、新しい過度なソリューションを生成する傾向にある、と私たちは主張する。
これらの欠点を克服するために、学習した特徴空間の構造から直接モデルのロバスト性を推定することを提案する。
論文 参考訳(メタデータ) (2021-06-23T10:52:29Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information
Retrieval Models [41.45240621979654]
情報検索のための異種ベンチマークであるBEIRを紹介する。
ゼロショット評価設定における9つの最先端の検索モデルの有効性を検討する。
Dense-Retrievalモデルは計算効率が良いが、他のアプローチでは性能が劣ることが多い。
論文 参考訳(メタデータ) (2021-04-17T23:29:55Z) - Best-Buddy GANs for Highly Detailed Image Super-Resolution [71.13466303340192]
我々は,低分解能(LR)入力に基づいて高分解能(HR)画像を生成する単一画像超解像(SISR)問題を考える。
このラインに沿ったほとんどのメソッドは、SISRタスクに十分な柔軟性がない、事前定義されたシングルLRシングルHRマッピングに依存しています。
リッチディテールSISRのためのベストバディGAN(Beby-GAN)を提案する。
イミュータブルな1対1の制約を緩和することで、推定されたパッチを動的に最高の監視を求めることができる。
論文 参考訳(メタデータ) (2021-03-29T02:58:27Z) - Contemplating real-world object classification [53.10151901863263]
Barbuらが最近提案したObjectNetデータセットを再分析した。
日常の状況に物を含むこと。
分離されたオブジェクトにディープモデルを適用すると、元の論文のようにシーン全体ではなく、約20~30%の性能改善が得られます。
論文 参考訳(メタデータ) (2021-03-08T23:29:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。