論文の概要: Towards Efficient Benchmarking of Foundation Models in Remote Sensing: A Capabilities Encoding Approach
- arxiv url: http://arxiv.org/abs/2505.03299v1
- Date: Tue, 06 May 2025 08:29:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.262421
- Title: Towards Efficient Benchmarking of Foundation Models in Remote Sensing: A Capabilities Encoding Approach
- Title(参考訳): リモートセンシングにおけるファンデーションモデルの効率的なベンチマークに向けて--エンコード手法
- Authors: Pierre Adorni, Minh-Tan Pham, Stéphane May, Sébastien Lefèvre,
- Abstract要約: 本稿では,複数の下流タスクにおいて,各タスクの微調整を必要とせずにモデルの性能を予測する手法を提案する。
我々は、与えられた新しいタスクに対する基礎モデルの選択を単純化する可能性を示し、それを既存の文献に対する新たな視点として採用する。
- 参考スコア(独自算出の注目度): 3.7373615987126323
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Foundation models constitute a significant advancement in computer vision: after a single, albeit costly, training phase, they can address a wide array of tasks. In the field of Earth observation, over 75 remote sensing vision foundation models have been developed in the past four years. However, none has consistently outperformed the others across all available downstream tasks. To facilitate their comparison, we propose a cost-effective method for predicting a model's performance on multiple downstream tasks without the need for fine-tuning on each one. This method is based on what we call "capabilities encoding." The utility of this novel approach is twofold: we demonstrate its potential to simplify the selection of a foundation model for a given new task, and we employ it to offer a fresh perspective on the existing literature, suggesting avenues for future research. Codes are available at https://github.com/pierreadorni/capabilities-encoding.
- Abstract(参考訳): ファンデーションモデルは、コンピュータビジョンにおいて重要な進歩を担っている。
地球観測の分野では、過去4年間に75以上のリモートセンシング基盤モデルが開発されてきた。
しかしながら、ダウンストリームのすべてのタスクで、他のタスクよりも一貫して優れています。
比較を容易にするため,複数の下流タスクにおいて,各タスクの微調整を必要とせず,モデルの性能を予測できるコスト効率のよい手法を提案する。
この手法は、私たちが「能力符号化」と呼ぶものに基づいている。
この新たな手法の実用性は2つある: 与えられた新しいタスクに対する基礎モデルの選定を単純化する可能性を実証し、既存の文献に新たな視点を与え、今後の研究の道筋を示唆する。
コードはhttps://github.com/pierreadorni/capabilities-encoding.comで公開されている。
関連論文リスト
- How to Enhance Downstream Adversarial Robustness (almost) without Touching the Pre-Trained Foundation Model? [6.901549479897846]
本稿では,基礎モデルにデータを送る前に,データ前処理方式として頑健な自動エンコーダを提案する。
提案手法は,ロバストなオートエンコーダのトレーニングにおいて,基礎モデルへのアクセスをゼロにする。
論文 参考訳(メタデータ) (2025-04-15T04:17:37Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - A Simple-but-effective Baseline for Training-free Class-Agnostic Counting [28.18693237718039]
CAC(Class-Agnostic Counting)は、いくつかの参照例だけで、与えられた画像内のオブジェクトを正確にカウントすることを目指している。
近年の取り組みでは、既存の基礎モデルを利用することで、トレーニングなしでこれを達成できることが示されている。
我々は、このパフォーマンスギャップを効果的に橋渡しし、強力なベースラインとして機能する、トレーニング不要のソリューションを提案する。
論文 参考訳(メタデータ) (2024-03-03T07:19:50Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Uncovering the Hidden Cost of Model Compression [43.62624133952414]
視覚プロンプティングは、コンピュータビジョンにおける伝達学習の重要な方法として登場した。
モデル圧縮は視覚的プロンプトベース転送の性能に有害である。
しかし、量子化によってモデルが圧縮されるとき、キャリブレーションに対する負の効果は存在しない。
論文 参考訳(メタデータ) (2023-08-29T01:47:49Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Bridging Pre-trained Models and Downstream Tasks for Source Code
Understanding [13.65914588243695]
本稿では,事前学習されたモデルとコード関連タスクをブリッジする手法を提案する。
我々は、下流データの多様性を豊かにする意味保存変換を利用する。
本稿では,既存の事前学習モデルを微調整するために,変換されたデータを手軽に整理するためのカリキュラム学習を紹介する。
論文 参考訳(メタデータ) (2021-12-04T07:21:28Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - Few-shot Weakly-Supervised Object Detection via Directional Statistics [55.97230224399744]
少数ショットコモンオブジェクトローカライゼーション(COL)と少数ショット弱監視オブジェクト検出(WSOD)のための確率論的多重インスタンス学習手法を提案する。
本モデルでは,新しいオブジェクトの分布を同時に学習し,期待-最大化ステップにより局所化する。
提案手法は, 単純であるにもかかわらず, 少数のCOLとWSOD, 大規模WSODタスクにおいて, 高いベースラインを達成できることを示す。
論文 参考訳(メタデータ) (2021-03-25T22:34:16Z) - Which Model to Transfer? Finding the Needle in the Growing Haystack [27.660318887140203]
我々は後悔というよく知られた概念を通じてこの問題の形式化を提供する。
タスク非依存とタスク認識の両方の手法が,後悔を招きかねないことを示す。
そこで我々は,既存の手法よりも優れた,シンプルで効率的なハイブリッド検索戦略を提案する。
論文 参考訳(メタデータ) (2020-10-13T14:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。