論文の概要: LUCAS-MEGA: A Large-Scale Multimodal Dataset for Representation Learning in Soil-Environment Systems
- arxiv url: http://arxiv.org/abs/2605.04323v2
- Date: Fri, 08 May 2026 14:33:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 16:31:22.830835
- Title: LUCAS-MEGA: A Large-Scale Multimodal Dataset for Representation Learning in Soil-Environment Systems
- Title(参考訳): LUCAS-MEGA:土壌環境システムにおける表現学習のための大規模マルチモーダルデータセット
- Authors: Kuangdai Leng, Simon Jeffery, Panos Panagos, Tarje Nissen-Meyer,
- Abstract要約: 欧州の土壌環境観測の系統的なデータ融合によって構築された大規模データセットであるLUCASMEGAを紹介する。
データセットは70,000以上のサンプルと、物理的、化学的、環境的、生物学的、視覚的属性にまたがる1,000以上の特徴で構成されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding soil is fundamental to agriculture, carbon cycling, and environmental sustainability, yet progress is limited by fragmented and heterogeneous datasets that constrain modeling to small-scale predictive settings rather than high-dimensional representation learning. We introduce LUCAS-MEGA, a large-scale multimodal dataset constructed through systematic data fusion of European soil-environment observations, with the LUCAS survey as its backbone. The fused dataset comprises over 70,000 samples and more than 1,000 features spanning physical, chemical, environmental, biological, and visual attributes, aggregated from 68 source datasets. To enable integration at scale, we develop SoilFuser, a multi-agent, human-in-the-loop data fusion pipeline that standardizes heterogeneous data formats and measurement protocols, resolves inconsistencies and invalid entries (e.g., unit inconsistencies, codebook mismatches, and erroneous values), incorporates natural language annotations, and harmonizes multimodal attributes and metadata into a unified, machine learning-ready feature space. The resulting dataset captures key characteristics of real-world soil observations, including multimodality, uneven feature coverage, and heterogeneous uncertainty. To demonstrate the usability of LUCAS-MEGA for data-driven modeling, we pretrain a multimodal tabular transformer (SoilFormer) using a self-supervised objective based on feature masking, achieving stable training, strong predictive performance, and representations that support uncertainty-aware prediction. We further show that the learned representations recover relationships consistent with established soil processes. LUCAS-MEGA is released with open access and is accompanied by composable, agent-friendly APIs that support structured querying and data-driven workflows.
- Abstract(参考訳): 土壌を理解することは農業、炭素循環、環境の持続可能性の基本であるが、高次元の表現学習ではなく、小規模の予測設定にモデリングを制約する断片的で異質なデータセットによって進歩は制限されている。
LUCAS-MEGAは,欧州の土壌環境観測の体系的なデータ融合によって構築された大規模マルチモーダルデータセットである。
融合データセットは、70,000以上のサンプルと、68のソースデータセットから集計された物理的、化学的、環境的、生物学的、視覚的属性にまたがる1,000以上の特徴から構成される。
大規模な統合を実現するため、異種データフォーマットと測定プロトコルを標準化し、不整合と不正なエントリ(例えば、単体不整合、コードブックミスマッチ、誤値)を解消し、自然言語アノテーションを組み込み、マルチモーダル属性とメタデータを統一された機械学習対応の機能空間に調和させる、マルチエージェントのヒューマン・イン・ザ・ループデータ融合パイプラインであるSoilFuserを開発した。
得られたデータセットは、マルチモーダリティ、不均一な特徴カバレッジ、不均一な不確実性を含む、現実世界の土壌観測の重要な特徴をキャプチャする。
データ駆動型モデリングにおけるLUCAS-MEGAの有用性を実証するために,特徴マスキングに基づく自己教師型目標を用いたマルチモーダル表型変換器(SoilFormer)を事前訓練し,安定したトレーニング,強力な予測性能,不確実性を考慮した予測を支援する表現を行う。
さらに, 学習された表現が, 確立した土壌プロセスと整合した関係を回復することを示す。
LUCAS-MEGAはオープンアクセスでリリースされ、構造化クエリとデータ駆動ワークフローをサポートする構成可能な、エージェントフレンドリなAPIが付属している。
関連論文リスト
- Tracing the Roots: A Multi-Agent Framework for Uncovering Data Lineage in Post-Training LLMs [81.43302841109349]
学習後のデータは、大規模言語モデル(LLM)の機能を形成する上で重要な役割を果たす
本稿では,データセット開発における進化グラフを再構築する自動マルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-12T06:24:07Z) - A Hierarchical Multi-Agent System for Autonomous Discovery in Geoscientific Data Archives [0.0]
PANGAEA-GPTは、自律的なデータ発見と分析のために設計された階層型マルチエージェントフレームワークである。
標準のLarge Language Model (LLM)ラッパーとは異なり、我々のアーキテクチャは集中型スーパーバイザ-ワーバートポロジを実装している。
人間の介入を最小限に抑えながら、複雑な多段階決定論的ランタイムを実行するシステムの能力を実証する。
論文 参考訳(メタデータ) (2026-02-24T20:37:38Z) - Less is Enough: Synthesizing Diverse Data in Feature Space of LLMs [39.84010804274527]
本稿では、解釈可能な機能空間におけるデータの多様性を測定する機能活性化カバレッジ(FAC)を紹介する。
この指標に基づいて,FAC合成という多様性駆動型データ合成フレームワークを提案する。
実験により,本手法は様々なタスクにおけるデータ多様性とダウンストリーム性能の両方を一貫して改善することが示された。
論文 参考訳(メタデータ) (2026-02-11T00:23:13Z) - Spatial-Temporal-Spectral Unified Modeling for Remote Sensing Dense Prediction [20.1863553357121]
リモートセンシングのための現在のディープラーニングアーキテクチャは、基本的に堅固である。
本稿では,統合モデリングのための空間時間スペクトル統一ネットワーク(STSUN)について紹介する。
STSUNは任意の空間サイズ、時間長、スペクトル帯域で入力および出力データに適応することができる。
様々な密集した予測タスクと多様な意味クラス予測を統一する。
論文 参考訳(メタデータ) (2025-05-18T07:39:17Z) - PolSAM: Polarimetric Scattering Mechanism Informed Segment Anything Model [83.35198885088093]
PolSARデータは、そのリッチで複雑な特徴のために、ユニークな課題を提示する。
複素数値データ、偏光特性、振幅画像などの既存のデータ表現が広く使われている。
PolSARのほとんどの機能抽出ネットワークは小さく、機能を効果的にキャプチャする能力を制限している。
本稿では,ドメイン固有の散乱特性と新規なプロンプト生成戦略を統合したSegment Anything Model (SAM) であるPolarimetric Scattering Mechanism-Informed SAM (PolSAM)を提案する。
論文 参考訳(メタデータ) (2024-12-17T09:59:53Z) - A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。
まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。
次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2024-08-05T23:20:32Z) - SSL-SoilNet: A Hybrid Transformer-based Framework with Self-Supervised Learning for Large-scale Soil Organic Carbon Prediction [2.554658234030785]
本研究は,自己指導型コントラスト学習を通じて,マルチモーダル特徴間の地理的関連を学習することを目的とした,新しいアプローチを提案する。
提案手法は、2つの異なる大規模データセットに対して厳密なテストを行っている。
論文 参考訳(メタデータ) (2023-08-07T13:44:44Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。