論文の概要: From Pixels to Patches: Pooling Strategies for Earth Embeddings
- arxiv url: http://arxiv.org/abs/2603.02080v1
- Date: Mon, 02 Mar 2026 17:03:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.992532
- Title: From Pixels to Patches: Pooling Strategies for Earth Embeddings
- Title(参考訳): ピクチャーズからパッチへ:アース・エンベディングの戦略をポーリングする
- Authors: Isaac Corley, Caleb Robinson, Inbal Becker-Reshef, Juan M. Lavista Ferres,
- Abstract要約: 我々は、AlphaEarth、OlmoEarth、Tesseraの3つの基礎モデルから派生したGeoTIFFを81,000個組み込んだEuroSAT-Embedを紹介した。
よりリッチなプール方式は,平均プールに比べて地理的一般化ギャップを最大40%減少させることを示した。
平均プールのドロップイン代替として一般平均プール(GeM)を推奨する。
- 参考スコア(独自算出の注目度): 8.492463286439246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As geospatial foundation models shift from patch-level to pixel-level embeddings, practitioners must aggregate thousands of pixel vectors into patch representations that preserve class-discriminative signal while matching downstream label resolution. The default choice, mean pooling, discards within-patch variability and can drop accuracy by more than 10% under spatial shift. To evaluate this effect, we introduce EuroSAT-Embed: 81,000 embedding GeoTIFFs derived from three foundation models: AlphaEarth, OlmoEarth, and Tessera. We benchmark 11 training-free and 2 parametric pooling methods under both random and geographically disjoint test splits. Our results show that richer pooling schemes reduce the geographic generalization gap by up to 40% relative to mean pooling and increases accuracy by up to 5% on spatial splits. We recommend Generalized Mean Pooling (GeM) as a drop-in replacement for mean pooling: it improves accuracy without increasing embedding dimensionality. For maximum accuracy, Stats pooling (concatenation of min/max/mean/std pooling) performs best at 4x the embedding size. We further find that pooling effectiveness varies across embedding sources and that higher-dimensional embeddings benefit most from distributional statistics.
- Abstract(参考訳): 地理空間基盤モデルがパッチレベルからピクセルレベルへの埋め込みに移行するにつれて、実践者は下流ラベルの解像度を一致させながら、クラス識別信号を保持するパッチ表現に数千のピクセルベクトルを集約しなければならない。
デフォルトの選択、つまりプールは、パッチ内の可変性を破棄し、空間シフトの下で精度を10%以上下げる。
この効果を評価するために、EuroSAT-Embed: AlphaEarth、OlmoEarth、Tesseraの3つの基礎モデルからGeoTIFFを81,000個組み込んだEuroSAT-Embedを紹介した。
ランダムおよび地理的に不連続なテスト分割の下で,11のトレーニングフリーと2のパラメトリックプーリング手法をベンチマークした。
以上の結果から, よりリッチなプール方式は, 平均プールに比べて最大40%の地理的一般化ギャップを減少させ, 空間分割の精度を最大5%向上させることが示唆された。
平均プールのドロップイン代替として一般平均プール(GeM)を推奨する。
最大精度では、 Stats pooling (min/max/mean/std poolingの結合) は埋め込みサイズを4倍に向上させる。
さらに, 埋込源によってプールの有効性が異なり, より高次元の埋込が分布統計から最も恩恵を受けることが確認された。
関連論文リスト
- Optimizing Distributional Geometry Alignment with Optimal Transport for Generative Dataset Distillation [109.13471554184554]
最適輸送(OT)距離最小化問題としてデータセット蒸留を再構成する。
OTは分布マッチングのための幾何学的に忠実なフレームワークを提供する。
提案手法は, 常に最先端の手法を効率よく上回っている。
論文 参考訳(メタデータ) (2025-11-29T04:04:05Z) - Dense 3D Displacement Estimation for Landslide Monitoring via Fusion of TLS Point Clouds and Embedded RGB Images [7.144866519844918]
地すべりモニタリングは、ジオハザードを理解し、関連するリスクを軽減するために不可欠である。
既存の点クラウドベースの手法は、一般的に幾何学的またはラジオメトリック的な情報に依存する。
本稿では,3次元点雲と共登録RGB画像とを融合した階層的分割に基づく粗い微細化手法を提案する。
論文 参考訳(メタデータ) (2025-06-19T12:28:09Z) - PEnG: Pose-Enhanced Geo-Localisation [15.324623975476348]
衛星画像の密集が重なり合うため、横方向の地理的局所化は通常粗い粒度で行われる。
都市規模のグラフ表現から最も可能性の高いエッジを予測する2段階システムであるPEnGを開発した。
次に、これらのエッジ内で相対的なポーズ推定を行い、正確な位置を決定する。
論文 参考訳(メタデータ) (2024-11-24T07:42:50Z) - Semi-supervised Counting via Pixel-by-pixel Density Distribution
Modelling [135.66138766927716]
本稿では,トレーニングデータのごく一部をラベル付けした半教師付き群集カウントに着目した。
我々は1つの決定論的値ではなく、確率分布として回帰するためにピクセル単位の密度値を定式化する。
本手法は,様々なラベル付き比率設定の下で,競争相手よりも明らかに優れる。
論文 参考訳(メタデータ) (2024-02-23T12:48:02Z) - Less is More: Fewer Interpretable Region via Submodular Subset Selection [54.07758302264416]
本稿では,上述の画像帰属問題を部分モジュラ部分選択問題として再モデル化する。
我々は、より正確な小さな解釈領域を発見するために、新しい部分モジュラー関数を構築する。
正しく予測されたサンプルに対しては,HSIC-Attributionに対する平均4.9%と2.5%の利得で,Deletion and Insertionスコアを改善した。
論文 参考訳(メタデータ) (2024-02-14T13:30:02Z) - Learning Sub-Pixel Disparity Distribution for Light Field Depth
Estimation [16.966255245189114]
本稿では,ディープネットワークのパワーをフル活用して,サブピクセルの差分分布を学習するための,単純かつ効果的な手法を提案する。
提案手法は,HCI 4D LF Benchmarkにおける最近の最先端のLF深度アルゴリズムを4つの精度の指標で大きく上回っている。
論文 参考訳(メタデータ) (2022-08-20T14:15:35Z) - AdaPool: Exponential Adaptive Pooling for Information-Retaining
Downsampling [82.08631594071656]
畳み込み層は畳み込みニューラルネットワーク(CNN)の重要な構成要素である
適応的で指数関数的に重み付けされたアダプール法を提案する。
adaPoolは画像やビデオの分類やオブジェクト検出など,さまざまなタスクを通じて,ディテールの保存性の向上を実証する。
論文 参考訳(メタデータ) (2021-11-01T08:50:37Z) - Improving Semi-supervised Federated Learning by Reducing the Gradient
Diversity of Models [67.66144604972052]
Federated Learning(FL)は、ユーザのプライバシを維持しながらモバイルデバイスのコンピューティングパワーを使用する、有望な方法だ。
テスト精度に影響を与える重要な問題は、異なるユーザーからのモデルの勾配の多様性であることを示す。
本稿では,FedAvg平均化を代替するグループモデル平均化手法を提案する。
論文 参考訳(メタデータ) (2020-08-26T03:36:07Z) - Sliced Iterative Normalizing Flows [7.6146285961466]
我々は,任意の確率分布関数(PDF)を対象のPDFに変換することができる反復型(欲求型)ディープラーニング(DL)アルゴリズムを開発した。
本アルゴリズムの特殊な場合として,データから潜在空間(GIS)にマップする2つの反復正規化フロー(SINF)モデルを導入する。
論文 参考訳(メタデータ) (2020-07-01T18:00:04Z) - Generalized Focal Loss: Learning Qualified and Distributed Bounding
Boxes for Dense Object Detection [85.53263670166304]
一段検出器は基本的に、物体検出を密度の高い分類と位置化として定式化する。
1段検出器の最近の傾向は、局所化の質を推定するために個別の予測分岐を導入することである。
本稿では, 上記の3つの基本要素, 品質推定, 分類, ローカライゼーションについて述べる。
論文 参考訳(メタデータ) (2020-06-08T07:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。