論文の概要: BotaCLIP: Contrastive Learning for Botany-Aware Representation of Earth Observation Data
- arxiv url: http://arxiv.org/abs/2511.21194v1
- Date: Wed, 26 Nov 2025 09:19:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.034321
- Title: BotaCLIP: Contrastive Learning for Botany-Aware Representation of Earth Observation Data
- Title(参考訳): BotaCLIP:地球観測データのボタニー認識表現のためのコントラスト学習
- Authors: Selene Cerna, Sara Si-Moussi, Wilfried Thuiller, Hadrien Hendrikx, Vincent Miele,
- Abstract要約: BotaCLIPは、訓練済みの基礎モデルを適用してドメイン固有の知識を注入するための軽量フレームワークである。
本稿では,BotaCLIPがデータスカース設定に専門家の知識を注入し,フラジカル表現学習を可能にする方法を示す。
- 参考スコア(独自算出の注目度): 5.63123057685834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models have demonstrated a remarkable ability to learn rich, transferable representations across diverse modalities such as images, text, and audio. In modern machine learning pipelines, these representations often replace raw data as the primary input for downstream tasks. In this paper, we address the challenge of adapting a pre-trained foundation model to inject domain-specific knowledge, without retraining from scratch or incurring significant computational costs. To this end, we introduce BotaCLIP, a lightweight multimodal contrastive framework that adapts a pre-trained Earth Observation foundation model (DOFA) by aligning high-resolution aerial imagery with botanical relevés. Unlike generic embeddings, BotaCLIP internalizes ecological structure through contrastive learning with a regularization strategy that mitigates catastrophic forgetting. Once trained, the resulting embeddings serve as transferable representations for downstream predictors. Motivated by real-world applications in biodiversity modeling, we evaluated BotaCLIP representations in three ecological tasks: plant presence prediction, butterfly occurrence modeling, and soil trophic group abundance estimation. The results showed consistent improvements over those derived from DOFA and supervised baselines. More broadly, this work illustrates how domain-aware adaptation of foundation models can inject expert knowledge into data-scarce settings, enabling frugal representation learning.
- Abstract(参考訳): ファンデーションモデルは、画像、テキスト、オーディオなどの様々なモダリティをまたいだリッチで転送可能な表現を学習する驚くべき能力を示している。
現代の機械学習パイプラインでは、これらの表現はしばしば、下流タスクの主要な入力として生データを置き換える。
本稿では,ドメイン固有の知識を,スクラッチや計算コストの大幅な削減なしに注入するために,事前学習した基礎モデルを適用するという課題に対処する。
この目的のために,本研究では,高解像度空中画像と植物レベを整列させることにより,事前学習された地球観測基盤モデル(DOFA)に適応する軽量マルチモーダルコントラストフレームワークであるBotaCLIPを紹介する。
一般的な埋め込みとは異なり、BotaCLIPは、破滅的な忘れを緩和する正規化戦略によって、対照的な学習を通じて生態構造を内部化する。
トレーニングが完了すると、結果として得られる埋め込みは、下流の予測器の転送可能な表現として機能する。
生物多様性モデリングにおける実世界の応用により,植物の存在予測,蝶の発生予測,土壌栄養群存在推定の3つの環境課題において,BotaCLIP表現を評価した。
その結果,DOFAと教師付きベースラインより一貫した改善が見られた。
より広範に、この研究は、基礎モデルのドメイン認識適応が、専門家の知識をデータスカース設定に注入し、粗末な表現学習を可能にする方法を示している。
関連論文リスト
- Rethinking Plant Disease Diagnosis: Bridging the Academic-Practical Gap with Vision Transformers and Zero-Shot Learning [2.3536628395905974]
注意に基づくアーキテクチャとゼロショット学習アプローチが、キュレートされた学術データセットと現実世界の農業環境とのギャップを埋めるかどうかを検討する。
CNN(Convolutional Neural Networks)、ビジョントランスフォーマー(Vision Transformers)、およびCLIP(Contrastive Language- Image Pre-training)ベースのゼロショットモデルである。
論文 参考訳(メタデータ) (2025-11-24T11:08:01Z) - Did Models Sufficient Learn? Attribution-Guided Training via Subset-Selected Counterfactual Augmentation [61.248535801314375]
Subset-Selected Counterfactual Augmentation (SS-CA)
我々は,モデル予測を選択的に変更可能な最小空間領域集合を識別するために,対実的LIMAを開発した。
実験により,SS-CAは分布内テストデータ(ID)の一般化を改善し,分布外ベンチマーク(OOD)において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-11-15T08:39:22Z) - Large EEG-U-Transformer for Time-Step Level Detection Without Pre-Training [1.3254304182988286]
局所的特徴と大域的特徴の両方を捉えることで表現を効率的に学習する単純なU字モデルを提案する。
他のウィンドウレベルの分類モデルと比較して,本手法は時間段階の予測を直接出力する。
我々のモデルは、てんかんおよび他の神経疾患における人工知能に関する国際会議において、2025年の第1回「青信号検出チャレンジ」で優勝した。
論文 参考訳(メタデータ) (2025-04-01T01:33:42Z) - Disentangled World Models: Learning to Transfer Semantic Knowledge from Distracting Videos for Reinforcement Learning [65.85335291827086]
本稿では,オフラインからオンラインまでの潜水蒸留とフレキシブルなゆがみ制約を通したビデオから,セマンティックな違いを学習し,理解することを試みる。
動作自由なビデオ予測モデルを非干渉正規化によりオフラインでトレーニングし、注意をそらすビデオから意味的知識を抽出する。
オンライン環境での微調整には、事前学習されたモデルからの知識を活用し、世界モデルに絡み合った制約を導入する。
論文 参考訳(メタデータ) (2025-03-11T13:50:22Z) - T-JEPA: Augmentation-Free Self-Supervised Learning for Tabular Data [0.0]
自己教師付き学習(SSL)は一般的に同じサンプルの異なるビューを生成するため、データ拡張が必要である。
本研究では,構造化データに対する拡張不要なSSL方式を提案する。
我々のアプローチであるT-JEPAは、JEPA(Joint Embedding Predictive Architecture)に依存しており、潜伏した空間における再構築のマスクに似ている。
論文 参考訳(メタデータ) (2024-10-07T13:15:07Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Multi-Branch Deep Radial Basis Function Networks for Facial Emotion
Recognition [80.35852245488043]
放射状基底関数(RBF)ユニットによって形成された複数の分岐で拡張されたCNNベースのアーキテクチャを提案する。
RBFユニットは、中間表現を用いて類似のインスタンスで共有される局所パターンをキャプチャする。
提案手法は,提案手法の競争力を高めるためのローカル情報の導入であることを示す。
論文 参考訳(メタデータ) (2021-09-07T21:05:56Z) - Learning by Distillation: A Self-Supervised Learning Framework for
Optical Flow Estimation [71.76008290101214]
DistillFlowは光の流れを学ぶための知識蒸留手法である。
KITTIとSintelの両方のデータセット上で、最先端の教師なし学習性能を実現する。
我々のモデルは、KITTI 2015ベンチマークにおけるすべての単分子的手法の中で、第1位にランクされ、Sintel Finalベンチマークで発表されたすべてのメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-06-08T09:13:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。