論文の概要: On the Status of Foundation Models for SAR Imagery
- arxiv url: http://arxiv.org/abs/2509.21722v1
- Date: Fri, 26 Sep 2025 00:46:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.093845
- Title: On the Status of Foundation Models for SAR Imagery
- Title(参考訳): SAR画像の基礎モデルの現状
- Authors: Nathan Inkawhich,
- Abstract要約: 本稿では,SAR(Synthetic Aperture Radar)オブジェクト認識タスクにおける基礎的AI/MLモデルの実現可能性について検討する。
我々は、SARデータを用いた公開SSLモデルのセルフスーパービジョン微調整が実現可能であることを示す。
実験では、下流のタスク適応レシピで異なるバックボーンを使用することによるパフォーマンスのトレードオフをさらに分析した。
- 参考スコア(独自算出の注目度): 10.480790915352255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work we investigate the viability of foundational AI/ML models for Synthetic Aperture Radar (SAR) object recognition tasks. We are inspired by the tremendous progress being made in the wider community, particularly in the natural image domain where frontier labs are training huge models on web-scale datasets with unprecedented computing budgets. It has become clear that these models, often trained with Self-Supervised Learning (SSL), will transform how we develop AI/ML solutions for object recognition tasks - they can be adapted downstream with very limited labeled data, they are more robust to many forms of distribution shift, and their features are highly transferable out-of-the-box. For these reasons and more, we are motivated to apply this technology to the SAR domain. In our experiments we first run tests with today's most powerful visual foundational models, including DINOv2, DINOv3 and PE-Core and observe their shortcomings at extracting semantically-interesting discriminative SAR target features when used off-the-shelf. We then show that Self-Supervised finetuning of publicly available SSL models with SAR data is a viable path forward by training several AFRL-DINOv2s and setting a new state-of-the-art for SAR foundation models, significantly outperforming today's best SAR-domain model SARATR-X. Our experiments further analyze the performance trade-off of using different backbones with different downstream task-adaptation recipes, and we monitor each model's ability to overcome challenges within the downstream environments (e.g., extended operating conditions and low amounts of labeled data). We hope this work will inform and inspire future SAR foundation model builders, because despite our positive results, we still have a long way to go.
- Abstract(参考訳): 本研究では,SAR(Synthetic Aperture Radar)オブジェクト認識タスクにおける基礎的AI/MLモデルの実現可能性について検討する。
私たちは、特にフロンティア研究所が、前例のない計算予算を持つWebスケールデータセットで巨大なモデルをトレーニングしている、自然画像領域において、コミュニティの急速な進歩にインスピレーションを受けています。
これらのモデルは、しばしばSSL(Self-Supervised Learning)でトレーニングされているが、オブジェクト認識タスクのためのAI/MLソリューションの開発方法を変えることになる。
これらの理由以上の理由から、私たちはこの技術をSARドメインに適用する動機があります。
我々の実験では、DINOv2、DINOv3、PE-Coreを含む今日の最も強力な視覚基盤モデルでテストを実行し、セマンティックに興味深い差別的SARターゲット機能をオフザシェルフで使用する際の問題点を観察しました。
次に、現在最高のSARドメインモデルであるSARATR-Xを著しく上回る、いくつかのAFRL-DINOv2をトレーニングし、新たな最先端のSARファンデーションモデルを設定することで、SARデータを用いた公開SSLモデルのセルフスーパービジョン微調整が実現可能であることを示す。
実験では、下流のタスク適応レシピが異なる異なるバックボーンを使用することによるパフォーマンス上のトレードオフをさらに分析し、下流環境(例えば、拡張された操作条件やラベル付きデータの少ない量)における課題を克服する各モデルの能力をモニタリングする。
私たちの肯定的な結果にもかかわらず、まだ長い道のりがあるので、この作業が将来のSARファウンデーションモデル構築者に通知し、インスピレーションを与えることを期待しています。
関連論文リスト
- Efficient Self-Supervised Learning for Earth Observation via Dynamic Dataset Curation [67.23953699167274]
自己教師付き学習(SSL)により、地球観測のための視覚基盤モデルの開発が可能になった。
EOでは、この課題は衛星画像に共通する冗長性と重尾分布によって増幅される。
本稿では,データセットの多様性とバランスを最大化し,SSL事前トレーニングを改善するために設計された動的データセットプルーニング戦略を提案する。
論文 参考訳(メタデータ) (2025-04-09T15:13:26Z) - Specialized Foundation Models Struggle to Beat Supervised Baselines [60.23386520331143]
ゲノミクス、衛星画像、時系列の3つのモードを最近のFMで調べ、それらを標準的な教師付き学習ワークフローと比較する。
最新のファンデーションモデルにマッチしたり、性能を上回るような、シンプルな教師付きモデルのトレーニングが一貫して可能であることが分かりました。
論文 参考訳(メタデータ) (2024-11-05T04:10:59Z) - Predicting Gradient is Better: Exploring Self-Supervised Learning for SAR ATR with a Joint-Embedding Predictive Architecture [23.375515181854254]
SSL(Self-Supervised Learning)手法は,大規模未ラベルデータの事前学習を伴う様々なSAR自動ターゲット認識(ATR)タスクを実現する。
SSLはデータから直接監視信号を構築することを目的としている。
本研究では,SAR ATRの基盤モデル構築に有効なSSL方式について検討した。
論文 参考訳(メタデータ) (2023-11-26T01:05:55Z) - Towards Efficient Task-Driven Model Reprogramming with Foundation Models [52.411508216448716]
ビジョンファウンデーションモデルは、非常に大きなモデルキャパシティと幅広いトレーニングデータから恩恵を受け、印象的なパワーを示す。
しかし、実際には、下流のシナリオは限られた計算資源や効率上の考慮のため、小さなモデルしかサポートできない。
これは、ファンデーションモデルの現実的な応用に重要な課題をもたらします。
論文 参考訳(メタデータ) (2023-04-05T07:28:33Z) - Multi-Branch Deep Radial Basis Function Networks for Facial Emotion
Recognition [80.35852245488043]
放射状基底関数(RBF)ユニットによって形成された複数の分岐で拡張されたCNNベースのアーキテクチャを提案する。
RBFユニットは、中間表現を用いて類似のインスタンスで共有される局所パターンをキャプチャする。
提案手法は,提案手法の競争力を高めるためのローカル情報の導入であることを示す。
論文 参考訳(メタデータ) (2021-09-07T21:05:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。