Fugu-MT 論文翻訳(概要): MineAgent: Towards Remote-Sensing Mineral Exploration with Multimodal Large Language Models

論文の概要: MineAgent: Towards Remote-Sensing Mineral Exploration with Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2412.17339v1
Date: Mon, 23 Dec 2024 07:08:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-24 19:42:48.363972
Title: MineAgent: Towards Remote-Sensing Mineral Exploration with Multimodal Large Language Models
Title（参考訳）: MineAgent:マルチモーダル大規模言語モデルによるリモートセンシング鉱物探査を目指して
Authors: Beibei Yu, Tao Shen, Hongbin Na, Ling Chen, Denqi Li,
Abstract要約: MineAgentはマルチイメージ推論と空間スペクトル統合のためのフレームワークである。 MineBenchは、ドメイン固有の鉱物探査タスクでMLLMを評価するためのベンチマークである。
参考スコア（独自算出の注目度）: 8.668070469135936
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Remote-sensing mineral exploration is critical for identifying economically viable mineral deposits, yet it poses significant challenges for multimodal large language models (MLLMs). These include limitations in domain-specific geological knowledge and difficulties in reasoning across multiple remote-sensing images, further exacerbating long-context issues. To address these, we present MineAgent, a modular framework leveraging hierarchical judging and decision-making modules to improve multi-image reasoning and spatial-spectral integration. Complementing this, we propose MineBench, a benchmark specific for evaluating MLLMs in domain-specific mineral exploration tasks using geological and hyperspectral data. Extensive experiments demonstrate the effectiveness of MineAgent, highlighting its potential to advance MLLMs in remote-sensing mineral exploration.
Abstract（参考訳）: リモートセンシング鉱物探査は経済的に実行可能な鉱床を特定するために重要であるが、マルチモーダル大言語モデル(MLLM)には大きな課題がある。これには、ドメイン固有の地質学的知識の制限や、複数のリモートセンシング画像の推論の難しさが含まれており、さらに長いコンテキストの問題が悪化している。これらの問題に対処するために,階層的判断および意思決定モジュールを活用し,マルチイメージ推論と空間スペクトル統合を改善するモジュールフレームワークであるMineAgentを提案する。そこで本研究では,地層・高スペクトルデータを用いた鉱物探査におけるMLLM評価のためのベンチマークであるMineBenchを提案する。大規模な実験は、ミネアジェントの有効性を示し、リモートセンシングミネラル探査においてMLLMを前進させる可能性を強調している。

関連論文リスト

MARBLE: A Hard Benchmark for Multimodal Spatial Reasoning and Planning [10.602434753538535]
複数のモダリティから情報を処理し、それを段階的に分析する能力は、人工知能を進化させる上で重要な課題である。本稿では,マルチモーダル言語モデルの精査を目的としたマルチモーダル推論ベンチマークであるMARBLEを提案する。現在のMLLMはMARBLEでは性能が悪く、M-Portalではほぼランダムな性能、M-Cubeでは0%の精度が得られる。
論文参考訳（メタデータ） (2025-06-28T19:44:32Z)
EarthMind: Towards Multi-Granular and Multi-Sensor Earth Observation with Large Multimodal Models [96.18182289276649]
我々は,多粒子・多センサ地球観測(EO)データ理解のための新しい視覚言語フレームワークであるEarthMindを提案する。 EarthMind は,(1) 画素レベルの理解を高めるために LLM 内で注意を喚起する空間アテンション・プロンプティング (SAP) と、(2) 異質なモダリティを共有空間に整合させるクロスモーダル・フュージョン (Cross-modal Fusion) の2つのコアコンポーネントを備えている。マルチセンサ・フュージョン評価を容易にするため,2000以上のマルチセンサ・イメージ・クエクション・ペアを用いた総合ベンチマーク「EarthMind-Bench」を提案する。
論文参考訳（メタデータ） (2025-06-02T13:36:05Z)
SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding [64.15606979785355]
マルチモーダル大規模言語モデル(MLLM)は,質問応答タスクにおいて顕著な成功を収めているが,空間的理解能力は乏しい。既存のMLLMは3次元空間認識と理解能力を持っているか?
論文参考訳（メタデータ） (2025-05-22T17:59:03Z)
A Survey on Remote Sensing Foundation Models: From Vision to Multimodality [35.532200523631765]
リモートセンシングのための視覚とマルチモーダル基礎モデルは、インテリジェントな地理空間データ解釈能力を大幅に向上させた。データタイプの多様性、大規模アノテートデータセットの必要性、マルチモーダル融合技術の複雑さは、これらのモデルの効果的なデプロイに重大な障害をもたらす。本稿では、リモートセンシングのための最先端のビジョンモデルとマルチモーダル基礎モデルについて、アーキテクチャ、トレーニング方法、データセット、アプリケーションシナリオに焦点をあててレビューする。
論文参考訳（メタデータ） (2025-03-28T01:57:35Z)
OmniGeo: Towards a Multimodal Large Language Models for Geospatial Artificial Intelligence [51.0456395687016]
マルチモーダル大言語モデル(LLM)が人工知能の新しいフロンティアをオープンした。地理空間応用に適したMLLM(OmniGeo)を提案する。自然言語理解の長所と空間的推論の長所を組み合わせることで,GeoAIシステムの指示追従能力と精度を高めることができる。
論文参考訳（メタデータ） (2025-03-20T16:45:48Z)
Multi-LLM Collaborative Search for Complex Problem Solving [54.194370845153784]
そこで我々は,Mixture-of-Search-Agents(MoSA)パラダイムを提案する。 MoSAは、独立した探索とLCM間の反復的精錬を組み合わせることで、様々な推論経路を統合する。モンテカルロ木探索(MCTS)をバックボーンとして使用することにより、複数のエージェントが推論ステップを提案して集約することが可能となり、精度が向上する。
論文参考訳（メタデータ） (2025-02-26T06:31:04Z)
Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark [73.27104042215207]
EMMAは,数学,物理,化学,コーディングにまたがる有機マルチモーダル推論を対象とするベンチマークである。 EMMAタスクは、各モードで独立に推論することで対処できない高度なクロスモーダル推論を要求する。 EMMA上での最先端MLLMの評価は、複雑なマルチモーダルおよびマルチステップ推論タスクの処理において、重大な制限を生じさせる。
論文参考訳（メタデータ） (2025-01-09T18:55:52Z)
Benchmarking Large and Small MLLMs [71.78055760441256]
大規模なマルチモーダル言語モデル(MLLM)は、マルチモーダルコンテンツの理解と生成において顕著な進歩を遂げている。しかし、そのデプロイメントは、遅い推論、高い計算コスト、デバイス上のアプリケーションに対する非現実性など、重大な課題に直面している。 LLavaシリーズモデルとPhi-3-Visionによって実証された小さなMLLMは、より高速な推論、デプロイメントコストの削減、ドメイン固有のシナリオを扱う能力を備えた有望な代替手段を提供する。
論文参考訳（メタデータ） (2025-01-04T07:44:49Z)
ForgerySleuth: Empowering Multimodal Large Language Models for Image Manipulation Detection [107.86009509291581]
我々はForgerySleuthを提案し、包括的ヒント融合を行い、改ざんされた領域を示すセグメンテーション出力を生成する。 ForgeryAnalysisの有効性を実証し,ForgerySleuthが既存手法の堅牢性,一般化性,説明可能性において著しく優れていたことを示す。
論文参考訳（メタデータ） (2024-11-29T04:35:18Z)
An Empirical Analysis on Spatial Reasoning Capabilities of Large Multimodal Models [56.537253374781876]
LMM(Large Multimodal Models)は、様々なビジョンや言語タスクにおいて、強力なパフォーマンスを実現している。しかし、それらの空間的推論能力は未解明である。我々は,LMMの空間的理解と推論能力を包括的に研究するために,新しいVQAデータセットであるSpatial-MMを構築した。
論文参考訳（メタデータ） (2024-11-09T03:07:33Z)
Foundation Models for Remote Sensing and Earth Observation: A Survey [101.77425018347557]
本調査は、リモートセンシング基礎モデル(RSFM)の新しい分野を体系的にレビューする。モチベーションと背景の概要から始まり、続いて基本概念が導入された。我々はこれらのモデルを公開データセットと比較し、既存の課題について議論し、今後の研究方向性を提案する。
論文参考訳（メタデータ） (2024-10-22T01:08:21Z)
GFM4MPM: Towards Geospatial Foundation Models for Mineral Prospectivity Mapping [2.7998963147546148]
本研究では,ラベルのない地理空間データのみを用いて,バックボーンニューラルネットワークを自己教師型で学習する自己教師型アプローチを提案する。以上の結果から,自己超越が学習特徴の堅牢性を促進し,予測精度が向上することが示唆された。我々は、説明可能な人工知能技術を利用して、個々の予測が地質学的観点から解釈できることを実証する。
論文参考訳（メタデータ） (2024-06-18T16:24:28Z)
Charting New Territories: Exploring the Geographic and Geospatial Capabilities of Multimodal LLMs [35.86744469804952]
MLLM(Multimodal large language model)は、幅広いタスクにおいて顕著な能力を示しているが、地理的および地理空間領域におけるその知識と能力はまだ研究されていない。我々はこれらの領域におけるMLLMの様々な視覚能力を探索する一連の実験を行い、特にフロンティアモデル GPT-4V に注目した。我々の手法は、視覚的なタスクからなる小さなベンチマークでこれらのモデルに挑戦し、その能力を様々な複雑さでテストする。
論文参考訳（メタデータ） (2023-11-24T18:46:02Z)
Efficient Reinforcement Learning in Block MDPs: A Model-free Representation Learning Approach [73.62265030773652]
ブロック構造力学を用いたマルコフ決定過程における効率的な強化学習アルゴリズムであるBRIEEを提案する。 BRIEEは、潜伏状態の発見、探索、搾取を相互にインターリーブし、ほぼ最適な政策を確実に学べる。我々は、BRIEEが最先端のBlock MDPアルゴリズムであるHOMER RLや、リッチ・オブザーブレーションの組み合わせロック問題に挑戦する経験的ベースラインよりも、より標本効率が高いことを示す。
論文参考訳（メタデータ） (2022-01-31T19:47:55Z)
A review of machine learning in processing remote sensing data for mineral exploration [0.41998444721319217]
本稿では,最近確立したリモートセンシングデータ処理のための機械学習手法の実装と適応について概説する。異なる鉱床の探査への応用について研究している。
論文参考訳（メタデータ） (2021-03-13T10:36:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。