論文の概要: MineAgent: Towards Remote-Sensing Mineral Exploration with Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2412.17339v1
- Date: Mon, 23 Dec 2024 07:08:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 16:00:57.950463
- Title: MineAgent: Towards Remote-Sensing Mineral Exploration with Multimodal Large Language Models
- Title(参考訳): MineAgent:マルチモーダル大規模言語モデルによるリモートセンシング鉱物探査を目指して
- Authors: Beibei Yu, Tao Shen, Hongbin Na, Ling Chen, Denqi Li,
- Abstract要約: MineAgentはマルチイメージ推論と空間スペクトル統合のためのフレームワークである。
MineBenchは、ドメイン固有の鉱物探査タスクでMLLMを評価するためのベンチマークである。
- 参考スコア(独自算出の注目度): 8.668070469135936
- License:
- Abstract: Remote-sensing mineral exploration is critical for identifying economically viable mineral deposits, yet it poses significant challenges for multimodal large language models (MLLMs). These include limitations in domain-specific geological knowledge and difficulties in reasoning across multiple remote-sensing images, further exacerbating long-context issues. To address these, we present MineAgent, a modular framework leveraging hierarchical judging and decision-making modules to improve multi-image reasoning and spatial-spectral integration. Complementing this, we propose MineBench, a benchmark specific for evaluating MLLMs in domain-specific mineral exploration tasks using geological and hyperspectral data. Extensive experiments demonstrate the effectiveness of MineAgent, highlighting its potential to advance MLLMs in remote-sensing mineral exploration.
- Abstract(参考訳): リモートセンシング鉱物探査は経済的に実行可能な鉱床を特定するために重要であるが、マルチモーダル大言語モデル(MLLM)には大きな課題がある。
これには、ドメイン固有の地質学的知識の制限や、複数のリモートセンシング画像の推論の難しさが含まれており、さらに長いコンテキストの問題が悪化している。
これらの問題に対処するために,階層的判断および意思決定モジュールを活用し,マルチイメージ推論と空間スペクトル統合を改善するモジュールフレームワークであるMineAgentを提案する。
そこで本研究では,地層・高スペクトルデータを用いた鉱物探査におけるMLLM評価のためのベンチマークであるMineBenchを提案する。
大規模な実験は、ミネアジェントの有効性を示し、リモートセンシングミネラル探査においてMLLMを前進させる可能性を強調している。
関連論文リスト
- An Empirical Analysis on Spatial Reasoning Capabilities of Large Multimodal Models [56.537253374781876]
LMM(Large Multimodal Models)は、様々なビジョンや言語タスクにおいて、強力なパフォーマンスを実現している。
しかし、それらの空間的推論能力は未解明である。
我々は,LMMの空間的理解と推論能力を包括的に研究するために,新しいVQAデータセットであるSpatial-MMを構築した。
論文 参考訳(メタデータ) (2024-11-09T03:07:33Z) - Foundation Models for Remote Sensing and Earth Observation: A Survey [101.77425018347557]
本調査は、リモートセンシング基礎モデル(RSFM)の新しい分野を体系的にレビューする。
モチベーションと背景の概要から始まり、続いて基本概念が導入された。
我々はこれらのモデルを公開データセットと比較し、既存の課題について議論し、今後の研究方向性を提案する。
論文 参考訳(メタデータ) (2024-10-22T01:08:21Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - VMAD: Visual-enhanced Multimodal Large Language Model for Zero-Shot Anomaly Detection [19.79027968793026]
Zero-shot Anomaly Detection (ZSAD)は、未確認のオブジェクト内の異常を認識し、ローカライズする。
既存のZSADメソッドは、クローズドワールド設定によって制限され、事前に定義されたプロンプトで見つからない欠陥に苦労する。
我々は、視覚的IAD知識ときめ細かい知覚でMLLMを強化する新しいフレームワークVMAD(Visual-enhanced MLLM Anomaly Detection)を提案する。
論文 参考訳(メタデータ) (2024-09-30T09:51:29Z) - From Linguistic Giants to Sensory Maestros: A Survey on Cross-Modal Reasoning with Large Language Models [56.9134620424985]
クロスモーダル推論(CMR)は、より高度な人工知能システムへの進化における重要な能力として、ますます認識されている。
CMRタスクに取り組むためにLLM(Large Language Models)をデプロイする最近のトレンドは、その有効性を高めるためのアプローチの新たな主流となっている。
本調査では,LLMを用いてCMRで適用された現在の方法論を,詳細な3階層分類に分類する。
論文 参考訳(メタデータ) (2024-09-19T02:51:54Z) - A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。
本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文 参考訳(メタデータ) (2024-08-02T15:14:53Z) - GFM4MPM: Towards Geospatial Foundation Models for Mineral Prospectivity Mapping [2.7998963147546148]
本研究では,ラベルのない地理空間データのみを用いて,バックボーンニューラルネットワークを自己教師型で学習する自己教師型アプローチを提案する。
以上の結果から,自己超越が学習特徴の堅牢性を促進し,予測精度が向上することが示唆された。
我々は、説明可能な人工知能技術を利用して、個々の予測が地質学的観点から解釈できることを実証する。
論文 参考訳(メタデータ) (2024-06-18T16:24:28Z) - Charting New Territories: Exploring the Geographic and Geospatial
Capabilities of Multimodal LLMs [35.86744469804952]
MLLM(Multimodal large language model)は、幅広いタスクにおいて顕著な能力を示しているが、地理的および地理空間領域におけるその知識と能力はまだ研究されていない。
我々はこれらの領域におけるMLLMの様々な視覚能力を探索する一連の実験を行い、特にフロンティアモデル GPT-4V に注目した。
我々の手法は、視覚的なタスクからなる小さなベンチマークでこれらのモデルに挑戦し、その能力を様々な複雑さでテストする。
論文 参考訳(メタデータ) (2023-11-24T18:46:02Z) - Unsupervised ore/waste classification on open-cut mine faces using
close-range hyperspectral data [1.8111829286068908]
地雷面のスペクトルの教師なしマッピングのためのパイプラインを提案する。
提案したパイプラインは、鉱山の表面にミネラルをマッピングする統一システムにおいて、教師なしと自己教師付きのアルゴリズムを結合する。
マッピング機能の一貫性は、2つの異なる時間で取得されたデータを用いて実証される。
論文 参考訳(メタデータ) (2023-02-09T21:03:03Z) - Efficient Reinforcement Learning in Block MDPs: A Model-free
Representation Learning Approach [73.62265030773652]
ブロック構造力学を用いたマルコフ決定過程における効率的な強化学習アルゴリズムであるBRIEEを提案する。
BRIEEは、潜伏状態の発見、探索、搾取を相互にインターリーブし、ほぼ最適な政策を確実に学べる。
我々は、BRIEEが最先端のBlock MDPアルゴリズムであるHOMER RLや、リッチ・オブザーブレーションの組み合わせロック問題に挑戦する経験的ベースラインよりも、より標本効率が高いことを示す。
論文 参考訳(メタデータ) (2022-01-31T19:47:55Z) - A review of machine learning in processing remote sensing data for
mineral exploration [0.41998444721319217]
本稿では,最近確立したリモートセンシングデータ処理のための機械学習手法の実装と適応について概説する。
異なる鉱床の探査への応用について研究している。
論文 参考訳(メタデータ) (2021-03-13T10:36:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。