論文の概要: MineAgent: Towards Remote-Sensing Mineral Exploration with Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2412.17339v1
- Date: Mon, 23 Dec 2024 07:08:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 16:00:57.950463
- Title: MineAgent: Towards Remote-Sensing Mineral Exploration with Multimodal Large Language Models
- Title(参考訳): MineAgent:マルチモーダル大規模言語モデルによるリモートセンシング鉱物探査を目指して
- Authors: Beibei Yu, Tao Shen, Hongbin Na, Ling Chen, Denqi Li,
- Abstract要約: MineAgentはマルチイメージ推論と空間スペクトル統合のためのフレームワークである。
MineBenchは、ドメイン固有の鉱物探査タスクでMLLMを評価するためのベンチマークである。
- 参考スコア(独自算出の注目度): 8.668070469135936
- License:
- Abstract: Remote-sensing mineral exploration is critical for identifying economically viable mineral deposits, yet it poses significant challenges for multimodal large language models (MLLMs). These include limitations in domain-specific geological knowledge and difficulties in reasoning across multiple remote-sensing images, further exacerbating long-context issues. To address these, we present MineAgent, a modular framework leveraging hierarchical judging and decision-making modules to improve multi-image reasoning and spatial-spectral integration. Complementing this, we propose MineBench, a benchmark specific for evaluating MLLMs in domain-specific mineral exploration tasks using geological and hyperspectral data. Extensive experiments demonstrate the effectiveness of MineAgent, highlighting its potential to advance MLLMs in remote-sensing mineral exploration.
- Abstract(参考訳): リモートセンシング鉱物探査は経済的に実行可能な鉱床を特定するために重要であるが、マルチモーダル大言語モデル(MLLM)には大きな課題がある。
これには、ドメイン固有の地質学的知識の制限や、複数のリモートセンシング画像の推論の難しさが含まれており、さらに長いコンテキストの問題が悪化している。
これらの問題に対処するために,階層的判断および意思決定モジュールを活用し,マルチイメージ推論と空間スペクトル統合を改善するモジュールフレームワークであるMineAgentを提案する。
そこで本研究では,地層・高スペクトルデータを用いた鉱物探査におけるMLLM評価のためのベンチマークであるMineBenchを提案する。
大規模な実験は、ミネアジェントの有効性を示し、リモートセンシングミネラル探査においてMLLMを前進させる可能性を強調している。
関連論文リスト
- PEACE: Empowering Geologic Map Holistic Understanding with MLLMs [64.58959634712215]
地質図は地質学の基本的な図として、地球の地下と地表の構造と構成に関する重要な洞察を提供する。
その重要性にもかかわらず、現在のマルチモーダル大言語モデル(MLLM)は地質図の理解に乏しいことが多い。
このギャップを定量化するために、地質地図理解においてMLLMを評価するための最初のベンチマークであるGeoMap-Benchを構築した。
論文 参考訳(メタデータ) (2025-01-10T18:59:42Z) - Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark [73.27104042215207]
EMMAは,数学,物理,化学,コーディングにまたがる有機マルチモーダル推論を対象とするベンチマークである。
EMMAタスクは、各モードで独立に推論することで対処できない高度なクロスモーダル推論を要求する。
EMMA上での最先端MLLMの評価は、複雑なマルチモーダルおよびマルチステップ推論タスクの処理において、重大な制限を生じさせる。
論文 参考訳(メタデータ) (2025-01-09T18:55:52Z) - Benchmarking Large and Small MLLMs [71.78055760441256]
大規模なマルチモーダル言語モデル(MLLM)は、マルチモーダルコンテンツの理解と生成において顕著な進歩を遂げている。
しかし、そのデプロイメントは、遅い推論、高い計算コスト、デバイス上のアプリケーションに対する非現実性など、重大な課題に直面している。
LLavaシリーズモデルとPhi-3-Visionによって実証された小さなMLLMは、より高速な推論、デプロイメントコストの削減、ドメイン固有のシナリオを扱う能力を備えた有望な代替手段を提供する。
論文 参考訳(メタデータ) (2025-01-04T07:44:49Z) - SeaMo: A Multi-Seasonal and Multimodal Remote Sensing Foundation Model [39.38641232874326]
RS分野におけるマルチシーズン情報とマルチモーダル情報を統合する先駆的視覚基盤モデルSeaMoを提案する。
SeaMoはRSデータの多次元特性を明示的にモデル化し、モデルをより包括的で、堅牢で、多用途にする。
論文 参考訳(メタデータ) (2024-12-26T14:40:38Z) - An Empirical Analysis on Spatial Reasoning Capabilities of Large Multimodal Models [56.537253374781876]
LMM(Large Multimodal Models)は、様々なビジョンや言語タスクにおいて、強力なパフォーマンスを実現している。
しかし、それらの空間的推論能力は未解明である。
我々は,LMMの空間的理解と推論能力を包括的に研究するために,新しいVQAデータセットであるSpatial-MMを構築した。
論文 参考訳(メタデータ) (2024-11-09T03:07:33Z) - Foundation Models for Remote Sensing and Earth Observation: A Survey [101.77425018347557]
本調査は、リモートセンシング基礎モデル(RSFM)の新しい分野を体系的にレビューする。
モチベーションと背景の概要から始まり、続いて基本概念が導入された。
我々はこれらのモデルを公開データセットと比較し、既存の課題について議論し、今後の研究方向性を提案する。
論文 参考訳(メタデータ) (2024-10-22T01:08:21Z) - VMAD: Visual-enhanced Multimodal Large Language Model for Zero-Shot Anomaly Detection [19.79027968793026]
Zero-shot Anomaly Detection (ZSAD)は、未確認のオブジェクト内の異常を認識し、ローカライズする。
既存のZSADメソッドは、クローズドワールド設定によって制限され、事前に定義されたプロンプトで見つからない欠陥に苦労する。
我々は、視覚的IAD知識ときめ細かい知覚でMLLMを強化する新しいフレームワークVMAD(Visual-enhanced MLLM Anomaly Detection)を提案する。
論文 参考訳(メタデータ) (2024-09-30T09:51:29Z) - GFM4MPM: Towards Geospatial Foundation Models for Mineral Prospectivity Mapping [2.7998963147546148]
本研究では,ラベルのない地理空間データのみを用いて,バックボーンニューラルネットワークを自己教師型で学習する自己教師型アプローチを提案する。
以上の結果から,自己超越が学習特徴の堅牢性を促進し,予測精度が向上することが示唆された。
我々は、説明可能な人工知能技術を利用して、個々の予測が地質学的観点から解釈できることを実証する。
論文 参考訳(メタデータ) (2024-06-18T16:24:28Z) - Charting New Territories: Exploring the Geographic and Geospatial
Capabilities of Multimodal LLMs [35.86744469804952]
MLLM(Multimodal large language model)は、幅広いタスクにおいて顕著な能力を示しているが、地理的および地理空間領域におけるその知識と能力はまだ研究されていない。
我々はこれらの領域におけるMLLMの様々な視覚能力を探索する一連の実験を行い、特にフロンティアモデル GPT-4V に注目した。
我々の手法は、視覚的なタスクからなる小さなベンチマークでこれらのモデルに挑戦し、その能力を様々な複雑さでテストする。
論文 参考訳(メタデータ) (2023-11-24T18:46:02Z) - Efficient Reinforcement Learning in Block MDPs: A Model-free
Representation Learning Approach [73.62265030773652]
ブロック構造力学を用いたマルコフ決定過程における効率的な強化学習アルゴリズムであるBRIEEを提案する。
BRIEEは、潜伏状態の発見、探索、搾取を相互にインターリーブし、ほぼ最適な政策を確実に学べる。
我々は、BRIEEが最先端のBlock MDPアルゴリズムであるHOMER RLや、リッチ・オブザーブレーションの組み合わせロック問題に挑戦する経験的ベースラインよりも、より標本効率が高いことを示す。
論文 参考訳(メタデータ) (2022-01-31T19:47:55Z) - A review of machine learning in processing remote sensing data for
mineral exploration [0.41998444721319217]
本稿では,最近確立したリモートセンシングデータ処理のための機械学習手法の実装と適応について概説する。
異なる鉱床の探査への応用について研究している。
論文 参考訳(メタデータ) (2021-03-13T10:36:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。