論文の概要: LithoBench: Benchmarking Large Multimodal Models for Remote-Sensing Lithology Interpretation
- arxiv url: http://arxiv.org/abs/2605.07640v1
- Date: Fri, 08 May 2026 12:07:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.030808
- Title: LithoBench: Benchmarking Large Multimodal Models for Remote-Sensing Lithology Interpretation
- Title(参考訳): LithoBench: リモートセンシングリソロジー解釈のための大規模マルチモーダルモデルのベンチマーク
- Authors: Jun Wang, Fengpeng Li, Hang Dong, Tianjin Huang, Wei Han,
- Abstract要約: リソロジー解釈は、専門家が様々な特徴からロックタイプを推測する必要がある知識集約的なタスクである。
本稿では,リソロジー解釈における地質学的意味理解を評価するためのベンチマークであるLithoBenchを提案する。
- 参考スコア(独自算出の注目度): 13.659107194672485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Remote sensing lithology interpretation is fundamental to geological surveys, mineral exploration, and regional geological mapping. Unlike general land-cover recognition, lithology interpretation is a knowledge-intensive task that requires experts to infer rock types from various features, e.g., subtle visual, spectral, textural, geomorphological, and contextual cues, making reliable automated interpretation highly challenging. Geological knowledge-guided large multimodal models offer new opportunities, yet their evaluation remains constrained by the lack of benchmarks that capture lithological annotations, multi-level geological semantics, and expert-informed assessment. Here, we propose LithoBench, a multi-level benchmark for evaluating geological semantic understanding in remote sensing lithology interpretation. LithoBench contains 10,000 expert-annotated interpretation instances across 12 representative lithological categories, including 4,000 multiple-choice and 6,000 open-ended tasks organized into five cognitive levels: Identification and Description, Comparative Analysis, Mechanism Explanation, Practical Application, and Comprehensive Reasoning. We further develop an expert-in-the-loop, knowledge-grounded semi-automated construction pipeline, coupling multi sub-processes, e.g., structured geological image descriptions, to enhance geological validity and evaluation reliability. Experiments with multiple large vision-language models eveal substantial limitations in geological semantic understanding, particularly on higher-order explanation, application, and reasoning tasks.
- Abstract(参考訳): リモートセンシングリソロジーの解釈は、地質調査、鉱物探査、地域地質マッピングの基礎となっている。
一般の土地被覆認識とは異なり、リソロジー解釈は知識集約的な課題であり、専門家は様々な特徴、例えば微妙な視覚、スペクトル、テクスチュラル、地形学、文脈的手がかりからロックタイプを推測し、信頼性の高い自動解釈を非常に困難にしている。
地質学的知識に基づく大規模マルチモーダルモデルは新たな機会を提供するが、その評価は、リソジカルアノテーション、多段階の地質学的意味論、専門家によるインフォームドアセスメントを捉えるベンチマークの欠如によって制約されている。
本稿では,リモートセンシングリソロジー解釈における地質的意味理解を評価するためのマルチレベルベンチマークであるLithoBenchを提案する。
LithoBenchには、12の代表的なリソロジーカテゴリに1万のエキスパート注釈付き解釈インスタンスが含まれており、4000の多重選択と6,000のオープンエンドタスクが5つの認知レベル(識別と説明、比較分析、メカニズム説明、実践的応用、包括的推論)に分けられている。
我々はさらに、地質学的妥当性と信頼性を高めるために、ループ内のエキスパート・イン・ザ・ループ・ナレッジ・グラウンドの半自動構築パイプライン、マルチサブプロセス、例えば構造的地質画像記述を結合して開発する。
複数の大きな視覚言語モデルを用いた実験は、地質学的意味理解において、特に高次の説明、応用、推論タスクにおいて、かなりの制限を課している。
関連論文リスト
- GeoDecider: A Coarse-to-Fine Agentic Workflow for Explainable Lithology Classification [52.5232577739543]
リソロジー分類は、よく記録された信号から地下岩のタイプを推定することを目的としている。
既存の方法では、リソロジー分類を単一パスの分類タスクとして扱うことができる。
高精度かつ説明可能なリソロジー分類を可能にする粗大なエージェントワークフローであるGeoDeciderを提案する。
論文 参考訳(メタデータ) (2026-05-05T05:42:51Z) - QueryPlot: Generating Geological Evidence Layers using Natural Language Queries for Mineral Exploration [6.222922823124804]
本稿では,意味検索とマッピングのフレームワークであるQueryPlotを紹介する。
大規模な地質学的テキストコーパスと地質地図データを統合する。
システムは、事前訓練された埋め込みモデルを使用して、クエリとリージョン記述の両方をエンコードする。
意味的類似度スコアをランクに計算し、空間的に領域を視覚化する。
論文 参考訳(メタデータ) (2026-02-19T19:31:37Z) - OpenEarthAgent: A Unified Framework for Tool-Augmented Geospatial Agents [68.85365034738534]
本稿では,衛星画像,自然言語クエリ,詳細な推論トレースに基づいて学習したツール拡張された地理空間エージェントを開発するための統一的なフレームワークを提案する。
トレーニングパイプラインは、構造化推論軌道上の教師付き微調整に依存し、モデルを検証された多段階ツールの相互作用と整合させる。
付随コーパスは、14,538のトレーニングと1,169の評価インスタンスから構成され、トレーニングスプリットでは100K以上の推論ステップ、評価スプリットでは7K以上の推論ステップがある。
論文 参考訳(メタデータ) (2026-02-19T18:59:54Z) - Towards Automated Petrography [3.131620829073277]
ペトログラフィー(英: Petrography)は、岩石の鉱物学的組成を分析する地質学の分野である。
LITHOS(Large-scale Imaging and Thin section Optical-polarization Set)は、自動ペトログラフィーのための、最大かつ最も多種多様な実験フレームワークである。
LITHOSには、偏光の211,604個の高分解能RGBパッチと、25の鉱物カテゴリにわたる105,802個のエキスパートアノテート穀物が含まれている。
論文 参考訳(メタデータ) (2025-11-01T00:15:18Z) - PEACE: Empowering Geologic Map Holistic Understanding with MLLMs [64.58959634712215]
地質図は地質学の基本的な図として、地球の地下と地表の構造と構成に関する重要な洞察を提供する。
その重要性にもかかわらず、現在のマルチモーダル大言語モデル(MLLM)は地質図の理解に乏しいことが多い。
このギャップを定量化するために、地質地図理解においてMLLMを評価するための最初のベンチマークであるGeoMap-Benchを構築した。
論文 参考訳(メタデータ) (2025-01-10T18:59:42Z) - Ontology Embedding: A Survey of Methods, Applications and Resources [54.3453925775069]
オンロジはドメインの知識とメタデータを表現するために広く使われている。
直接支援できる論理的推論は、学習、近似、予測において非常に限られています。
1つの簡単な解決策は、統計分析と機械学習を統合することである。
論文 参考訳(メタデータ) (2024-06-16T14:49:19Z) - GeoFault: A well-founded fault ontology for interoperability in
geological modeling [0.0]
本稿では,GeoFault, resting on the Basic Ontology BFO (Arp et al., 2015) and the GeoCore (Garcia et al., 2020)について述べる。
地質断層に関する知識をモデル化する。
断層は様々な産業に欠かせないが、モデル化には不可欠である。
BFOとGeoCoreへの参照は、クラスを定義するためにこれらの様々な要素を割り当てることを可能にする。
論文 参考訳(メタデータ) (2023-02-14T14:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。