論文の概要: Data-Centric Machine Learning for Earth Observation: Necessary and Sufficient Features
- arxiv url: http://arxiv.org/abs/2408.11384v1
- Date: Wed, 21 Aug 2024 07:26:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 18:09:27.464645
- Title: Data-Centric Machine Learning for Earth Observation: Necessary and Sufficient Features
- Title(参考訳): 地球観測のためのデータ中心機械学習:必要十分かつ十分な特徴
- Authors: Hiba Najjar, Marlon Nuske, Andreas Dengel,
- Abstract要約: モデル記述法を利用して、モデルが最適な性能に達するために必要な特徴を特定する。
一部のデータセットは、時間的なインスタンスの20%未満で最適な精度に達することができるが、他のデータセットでは、1つのモダリティから1つのバンドの時系列が十分である。
- 参考スコア(独自算出の注目度): 5.143097874851516
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The availability of temporal geospatial data in multiple modalities has been extensively leveraged to enhance the performance of machine learning models. While efforts on the design of adequate model architectures are approaching a level of saturation, focusing on a data-centric perspective can complement these efforts to achieve further enhancements in data usage efficiency and model generalization capacities. This work contributes to this direction. We leverage model explanation methods to identify the features crucial for the model to reach optimal performance and the smallest set of features sufficient to achieve this performance. We evaluate our approach on three temporal multimodal geospatial datasets and compare multiple model explanation techniques. Our results reveal that some datasets can reach their optimal accuracy with less than 20% of the temporal instances, while in other datasets, the time series of a single band from a single modality is sufficient.
- Abstract(参考訳): 複数のモーダルにおける時空間データの可用性は、機械学習モデルの性能を高めるために広く活用されている。
適切なモデルアーキテクチャの設計への取り組みは飽和のレベルに近づいているが、データ中心の観点から考えると、データ利用効率とモデル一般化能力のさらなる向上を達成するためにこれらの取り組みを補完することができる。
この作品は、この方向性に寄与する。
モデル記述法を利用して、モデルが最適な性能に達するために必要な特徴と、この性能を達成するのに十分な最小の特徴を識別する。
我々は3つの時間的マルチモーダルな地理空間データセットに対するアプローチを評価し、複数のモデル説明手法を比較した。
以上の結果から,あるデータセットは時間的インスタンスの20%未満で最適な精度に到達でき,一方,他のデータセットでは単一帯域の時系列化が十分であることがわかった。
関連論文リスト
- Plots Unlock Time-Series Understanding in Multimodal Models [5.792074027074628]
本稿では,マルチモーダルファウンデーションモデルの既存のビジョンエンコーダを利用して,プロットを介して時系列データを"見る"方法を提案する。
実験により,本手法は生の時系列データをテキストとして提供する方法よりも優れていることが示された。
より複雑で現実的なシナリオへの明確な推論ステップによる合成タスクからの一般化性を実証するために、我々のアプローチを消費者健康タスクに適用する。
論文 参考訳(メタデータ) (2024-10-03T16:23:13Z) - Automated Label Unification for Multi-Dataset Semantic Segmentation with GNNs [48.406728896785296]
本稿では,グラフニューラルネットワークを用いて,複数のデータセットにまたがる統一ラベル空間を自動構築する手法を提案する。
従来の手法と異なり,本手法は手動の注釈や分類の調整を必要とせず,シームレスな訓練を容易にする。
論文 参考訳(メタデータ) (2024-07-15T08:42:10Z) - Stochastic Amortization: A Unified Approach to Accelerate Feature and Data Attribution [62.71425232332837]
雑音ラベル付きモデルを用いたトレーニングは安価で驚くほど効果的であることを示す。
このアプローチは、いくつかの特徴属性とデータ評価手法を著しく加速し、しばしば既存のアプローチよりも桁違いにスピードアップする。
論文 参考訳(メタデータ) (2024-01-29T03:42:37Z) - Better, Not Just More: Data-Centric Machine Learning for Earth Observation [16.729827218159038]
モデル中心の視点から補完的なデータ中心の視点へのシフトは、より正確性、一般化能力、そしてエンドユーザーアプリケーションへの影響を高めるために必要である。
本研究は、地理空間データに対する自動データ中心学習手法の正確な分類と概要と、その定義を提示する。
論文 参考訳(メタデータ) (2023-12-08T19:24:05Z) - A Simple and Efficient Baseline for Data Attribution on Images [107.12337511216228]
現在の最先端のアプローチでは、モデル予測を正確に評価するために、最大30万のモデルの大規模なアンサンブルが必要となる。
本研究では、自己教師付き学習によって事前訓練されたバックボーンの特徴空間を利用して、データ帰属を行うミニマリストベースラインに焦点を当てる。
提案手法はモデルに依存しず,大規模データセットに容易にスケールできる。
論文 参考訳(メタデータ) (2023-11-03T17:29:46Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - Benchmarking Data Efficiency and Computational Efficiency of Temporal
Action Localization Models [42.06124795143787]
時間的アクションローカライゼーションでは、入力ビデオが与えられた場合、目的は、それがどのアクションを含むか、どこから始まり、どこで終わるかを予測することである。
この研究は、データ量や計算能力に制約された設定において、現在の深部時間的行動ローカライゼーションモデルがどのように機能するかを探索し、測定する。
論文 参考訳(メタデータ) (2023-08-24T20:59:55Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training [44.790636524264]
ポイント・プロンプト・トレーニング(Point Prompt Training)は、3D表現学習の文脈におけるマルチデータセットのシナジスティック学習のための新しいフレームワークである。
シナジスティック学習に関連する負の移動を克服し、一般化可能な表現を生成する。
教師付きマルチデータセットトレーニングを備えた1つの重み付きモデルを用いて、各データセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-18T17:59:57Z) - Revealing the Underlying Patterns: Investigating Dataset Similarity,
Performance, and Generalization [0.0]
教師付きディープラーニングモデルは、特定のタスクで許容可能なパフォーマンスを達成するために、大量のラベル付きデータを必要とする。
モデル動作に関する洞察を得るために、画像イメージ、データセット、画像データセット距離を確立する。
論文 参考訳(メタデータ) (2023-08-07T13:35:53Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。