論文の概要: MAgSeg: Segmentation of Agricultural Landscapes in High-Resolution Satellite Imagery using Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2605.16179v1
- Date: Fri, 15 May 2026 16:59:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.382085
- Title: MAgSeg: Segmentation of Agricultural Landscapes in High-Resolution Satellite Imagery using Multimodal Large Language Models
- Title(参考訳): MAgSeg:マルチモーダル大言語モデルを用いた高解像度衛星画像における農業景観のセグメンテーション
- Authors: Piyush Tiwary, Utkarsh Ahuja, Depanshu Sani, Aishwarya Jayagopal, Sagar Gubbi, Subhashini Venugopalan, Alok Talekar, Vaibhav Rajan,
- Abstract要約: グローバル・サウスにおける農業景観のセグメンテーションは、断片化されたプロット、高いクラス内分散、ラベル付きトレーニングデータの不足によって特徴付けられるため、困難である。
セグメント化の最近の進歩は、MLLM(Multimodal Large Language Models)によってなされている。
我々はこれらの制限を、新しいデコーダのないMLLMセグメンテーションアプローチであるMAgSegを通じて解決する。
- 参考スコア(独自算出の注目度): 15.21888498097037
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agricultural landscape segmentation in the Global South is challenging as it is characterized by fragmented plots, high intra-class variance, and a scarcity of labeled training data. Recent advances in segmentation have been made by Multimodal Large Language Models (MLLMs). However, current approaches encounter critical context length bottlenecks and a domain alignment gap in understanding satellite features. We address these limitations through MAgSeg, a novel, decoder-free MLLM segmentation approach. MAgSeg is an architecturally efficient approach that enables standard MLLMs to perform segmentation of complex smallholder agricultural landscapes from high-resolution satellite imagery, without requiring auxiliary vision decoders. We introduce a novel instruction tuning data format designed to enable scalable fine-tuning and post-training on high resolution satellite imagery, which enables MAgSeg to learn from the global context of the image while generating text tokens for only a patch within the image. Extensive evaluations on datasets spanning three countries in the Global South demonstrate that MAgSeg significantly outperforms state-of-the-art MLLM baselines, offering a scalable solution to map smallholder agricultural environments.
- Abstract(参考訳): グローバル・サウスにおける農業景観のセグメンテーションは、断片化されたプロット、高いクラス内分散、ラベル付きトレーニングデータの不足によって特徴付けられるため、困難である。
セグメンテーションの最近の進歩は、MLLM(Multimodal Large Language Models)によってなされている。
しかし、現在のアプローチでは、重要なコンテキスト長のボトルネックと、衛星の特徴を理解するための領域アライメントギャップに直面する。
我々はこれらの制限を、新しいデコーダのないMLLMセグメンテーションアプローチであるMAgSegを通して解決する。
MAgSegは、標準的なMLLMが補助的な視覚デコーダを必要とせず、高解像度の衛星画像から複雑な小作農の景観を分割できるアーキテクチャ的に効率的なアプローチである。
我々は、高解像度の衛星画像上でスケーラブルな微調整と後訓練を可能にするために設計された新しい命令チューニングデータフォーマットを導入し、MagSegは画像のグローバルコンテキストから学習し、画像内のパッチのみのためのテキストトークンを生成する。
グローバル・サウスの3カ国にまたがるデータセットの大規模な評価は、MagSegが最先端のMLLMベースラインを著しく上回り、小規模所有者の農業環境を地図化するためのスケーラブルなソリューションを提供することを示した。
関連論文リスト
- Global-Local Dual Perception for MLLMs in High-Resolution Text-Rich Image Translation [39.52909851398792]
Text Image Machine Translationは、ソース言語で画像に埋め込まれたテキストをターゲット言語に変換することを目的としている。
既存のTIMT法は、乱雑なレイアウト、多様なフォント、非テキストの注意散らしなどにより、高解像度のテキストリッチな画像に苦しむ。
MLLMベースのTIMTのためのグローバルなデュアル視覚認識フレームワークであるGLoTranを提案する。
論文 参考訳(メタデータ) (2026-02-25T14:38:47Z) - FineRS: Fine-grained Reasoning and Segmentation of Small Objects with Reinforcement Learning [62.11389260206383]
textscFineRSは、非常に小さなオブジェクトをセグメント化するための2段階のMLLMベースの強化学習フレームワークである。
textscFineRS-4kは,属性レベルの推論に基づくMLLMの評価と,微妙で小規模なターゲットに対する画素レベルのセグメンテーションのための新しいデータセットである。
論文 参考訳(メタデータ) (2025-10-24T10:14:17Z) - ARGenSeg: Image Segmentation with Autoregressive Image Generation Model [46.837184955843355]
本稿では,ARGenSeg(AutoRegressive Generation-based paradigm for image)を提案する。
提案手法は,複数のセグメンテーションデータセットに対する従来手法を超越し,推論速度を著しく向上させる。
論文 参考訳(メタデータ) (2025-10-23T17:58:26Z) - DescribeEarth: Describe Anything for Remote Sensing Images [56.04533626223295]
リモートセンシングのためのオブジェクトレベルのきめ細かい画像キャプションのための新しいタスクであるGeo-DLCを提案する。
このタスクを支援するために,オブジェクト属性,関係,コンテキストを詳細に記述した大規模データセットであるDE-Datasetを構築した。
また,Geo-DLC用に設計されたマルチモーダル大規模言語モデルアーキテクチャであるDescribeEarthを提案する。
論文 参考訳(メタデータ) (2025-09-30T01:53:34Z) - Annotation-Free Open-Vocabulary Segmentation for Remote-Sensing Images [51.74614065919118]
本稿では,アノテーションのないRS画像のオープン語彙セグメンテーションのための最初のフレームワークであるSegEarth-OVを紹介する。
粗い特徴から高分解能空間の詳細を頑健に復元する普遍的なアップサンプラーであるSimFeatUpを提案する。
また、パッチ機能から固有のグローバルコンテキストを抽出するための、シンプルで効果的なグローバルバイアス緩和操作も提示する。
論文 参考訳(メタデータ) (2025-08-25T14:22:57Z) - Instruction-guided Multi-Granularity Segmentation and Captioning with Large Multimodal Model [19.861556031795725]
MGLMM(Multi-Granularity Large Multimodal Model)を導入する。
MGLMMはユーザ指示に従ってキャプション(SegCap)の粒度をシームレスに調整することができる。
8つ以上の下流タスクに対処し、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-09-20T11:13:31Z) - Probing Multimodal Large Language Models for Global and Local Semantic Representations [57.25949445963422]
マルチモーダル大言語モデルのどの層がグローバルな画像情報に最も力を注いでいるかを検討する。
本研究では,モデルの中間層が,よりグローバルな意味情報を符号化できることを見出した。
最上位のレイヤが過度にローカル情報に集中していることが分かり、グローバル情報をエンコードする能力の低下につながります。
論文 参考訳(メタデータ) (2024-02-27T08:27:15Z) - Generalizable Entity Grounding via Assistance of Large Language Model [77.07759442298666]
本稿では,長いキャプションから密接な視覚的実体を抽出する手法を提案する。
本研究では,意味代名詞の抽出に大規模なマルチモーダルモデル,エンティティレベルのセグメンテーションを生成するクラス-aセグメンテーションモデル,および各セグメンテーション名詞と対応するセグメンテーションマスクを関連付けるマルチモーダル特徴融合モジュールを利用する。
論文 参考訳(メタデータ) (2024-02-04T16:06:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。