論文の概要: GLACIA: Instance-Aware Positional Reasoning for Glacial Lake Segmentation via Multimodal Large Language Model
- arxiv url: http://arxiv.org/abs/2512.09251v1
- Date: Wed, 10 Dec 2025 02:11:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.365917
- Title: GLACIA: Instance-Aware Positional Reasoning for Glacial Lake Segmentation via Multimodal Large Language Model
- Title(参考訳): GLACIA:マルチモーダル大言語モデルによる氷湖セグメンテーションのための事例対応位置推論
- Authors: Lalit Maurya, Saurabh Kaushik, Beth Tellman,
- Abstract要約: GLACIAは、大きな言語モデルとセグメンテーション機能を統合して、正確なセグメンテーションマスクとそれに対応する空間推論出力の両方を生成するフレームワークである。
我々のアプローチは、急速に変化する氷河環境の中で、直感的な防災準備と情報ポリシー作成を可能にする。
- 参考スコア(独自算出の注目度): 0.6281229317487581
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Glacial lake monitoring bears great significance in mitigating the anticipated risk of Glacial Lake Outburst Floods. However, existing segmentation methods based on convolutional neural networks (CNNs) and Vision Transformers (ViTs), remain constrained to pixel-level predictions, lacking high-level global scene semantics and human-interpretable reasoning. To address this, we introduce GLACIA (\textbf{G}lacial \textbf{LA}ke segmentation with \textbf{C}ontextual \textbf{I}nstance \textbf{A}wareness), the first framework that integrates large language models with segmentation capabilities to produce both accurate segmentation masks and corresponding spatial reasoning outputs. We construct the Glacial Lake Position Reasoning (GLake-Pos) dataset pipeline, which provides diverse, spatially grounded question-answer pairs designed to overcome the lack of instance-aware positional reasoning data in remote sensing. Comparative evaluation demonstrate that GLACIA (mIoU: 87.30) surpasses state-of-the-art method based on CNNs (mIoU: 78.55 - 79.01), ViTs (mIoU: 69.27 - 81.75), Geo-foundation models (mIoU: 76.37 - 87.10), and reasoning based segmentation methods (mIoU: 60.12 - 75.66). Our approach enables intuitive disaster preparedness and informed policy-making in the context of rapidly changing glacial environments by facilitating natural language interaction, thereby supporting more efficient and interpretable decision-making. The code is released on https://github.com/lalitmaurya47/GLACIA
- Abstract(参考訳): 氷河湖のモニタリングは、氷河湖流出洪水の予想されるリスクを軽減する上で非常に重要である。
しかし、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)に基づく既存のセグメンテーション手法は、高レベルのグローバルシーンセマンティクスと人間の解釈可能な推論を欠いているため、画素レベルの予測に制約が残っている。
そこで我々は, GLACIA (\textbf{G}lacial \textbf{LA}ke segmentation with \textbf{C}ontextual \textbf{I}nstance \textbf{A}wareness)を導入した。
我々は,リモートセンシングにおけるインスタンス認識位置推定データの欠如を克服するために,多様な空間的根拠を持つ質問応答ペアを提供するGlacial Lake Position Reasoning (GLake-Pos)データセットパイプラインを構築した。
GLACIA (mIoU: 87.30) は CNNs (mIoU: 78.55 - 79.01)、ViTs (mIoU: 69.27 - 81.75)、Geo-foundation model (mIoU: 76.37 - 87.10)、推論に基づくセグメンテーション法 (mIoU: 60.12 - 75.66) に基づく最先端の手法を超越している。
本手法は, 自然との相互作用を容易にし, より効率的かつ解釈可能な意思決定を支援することにより, 急激な氷河環境の変化にともなって, 直感的な防災準備と情報的政策作成を可能にする。
コードはhttps://github.com/lalitmaurya47/GLACIAで公開されている。
関連論文リスト
- Structure Matters: Revisiting Boundary Refinement in Video Object Segmentation [14.039694186929795]
半教師付きビデオオブジェクト(SVOS)技術は、コンピュータビジョンの基本的なタスクとして機能し、ビデオフレーム間でオブジェクトを追跡し、セグメント化することを目的としている。
これらの問題に対処し、下流アプリケーションのリアルタイム処理要求を満たすために、Inherent Structure refinementを用いた新しいbOundary Amendmentビデオオブジェクト手法を提案する。
論文 参考訳(メタデータ) (2025-07-25T04:30:23Z) - LIRA: Inferring Segmentation in Large Multi-modal Models with Local Interleaved Region Assistance [54.683384204063934]
大規模マルチモーダルモデル(LMM)は不正確なセグメンテーションと幻覚的理解に苦しむ。
視覚的理解とセグメンテーションの相補的関係を生かしたフレームワークであるLIRAを提案する。
LIRAはセグメンテーションと理解タスクの両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-08T07:46:26Z) - SegEarth-R1: Geospatial Pixel Reasoning via Large Language Model [61.97017867656831]
暗黙的な問合せと推論を可能にし,対象領域のマスクを生成する新しいタスク,すなわち地理空間的画素推論を導入する。
我々は,5,434枚の手動アノテート画像マスクと3万枚以上の暗黙的な質問応答ペアからなる,EarthReasonという,最初の大規模ベンチマークデータセットを構築し,リリースする。
SegEarth-R1は、推論タスクと参照セグメンテーションタスクの両方で最先端のパフォーマンスを実現し、従来のLCMベースのセグメンテーション手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2025-04-13T16:36:47Z) - A Deep Learning Framework for Boundary-Aware Semantic Segmentation [9.680285420002516]
本研究では境界拡張機能ブリッジングモジュール(BEFBM)を用いたMask2Formerに基づくセマンティックセマンティックセマンティクスアルゴリズムを提案する。
提案手法は,mIOU,mDICE,mRecallなどのメトリクスを大幅に改善する。
ビジュアル分析は、きめ細かい領域におけるモデルの利点を裏付ける。
論文 参考訳(メタデータ) (2025-03-28T00:00:08Z) - ReferDINO: Referring Video Object Segmentation with Visual Grounding Foundations [33.74746234704817]
ビデオオブジェクトセグメンテーション(RVOS)は、テキスト記述に基づいて、ビデオ全体を通してターゲットオブジェクトをセグメンテーションすることを目的としている。
これは、深い視覚レベルの理解、ピクセルレベルの高密度な予測、時間的推論を含むため、難しい。
基礎的な視覚基盤モデルから領域レベルの視覚テキストアライメントを継承するbfReferDINO RVOSを提案する。
論文 参考訳(メタデータ) (2025-01-24T16:24:15Z) - Language Driven Occupancy Prediction [13.35971455725581]
オープン語彙占有予測のための効果的で一般化可能なフレームワークであるLOccを紹介する。
私たちのパイプラインは、画像の貴重な意味情報を掘り下げ、画像からテキストラベルをLiDARポイントクラウドに、最終的にはボクセルに転送する、実現可能な方法を提供します。
教師付き占有モデルの当初の予測ヘッドを二進的占有状態のための幾何学ヘッドと言語特徴のための言語ヘッドに置き換えることで、LOccは生成された言語基底真実を効果的に利用して、3D言語ボリュームの学習をガイドする。
論文 参考訳(メタデータ) (2024-11-25T03:47:10Z) - Domain Adaptive Semantic Segmentation with Self-Supervised Depth
Estimation [84.34227665232281]
セマンティックセグメンテーションのためのドメイン適応は、ソースとターゲットドメイン間の分散シフトの存在下でモデルのパフォーマンスを向上させることを目的とする。
ドメイン間のギャップを埋めるために、両ドメインで利用可能な自己教師付き深さ推定からのガイダンスを活用します。
提案手法のベンチマークタスクSYNTHIA-to-CityscapesとGTA-to-Cityscapesの有効性を実証する。
論文 参考訳(メタデータ) (2021-04-28T07:47:36Z) - S3Net: 3D LiDAR Sparse Semantic Segmentation Network [1.330528227599978]
S3NetはLiDARポイントクラウドセマンティックセグメンテーションのための新しい畳み込みニューラルネットワークである。
sparse intra-channel attention module (sintraam)とsparse inter-channel attention module (sinteram)で構成されるエンコーダ-デコーダバックボーンを採用する。
論文 参考訳(メタデータ) (2021-03-15T22:15:24Z) - PGL: Prior-Guided Local Self-supervised Learning for 3D Medical Image
Segmentation [87.50205728818601]
本稿では,潜在特徴空間における局所的一貫性を学習するPGL(PresideedGuided Local)自己教師モデルを提案する。
我々のPGLモデルは、局所領域の特異な表現を学習し、したがって構造情報を保持できる。
論文 参考訳(メタデータ) (2020-11-25T11:03:11Z) - Towards Efficient Scene Understanding via Squeeze Reasoning [71.1139549949694]
我々はSqueeze Reasoningと呼ばれる新しいフレームワークを提案する。
空間地図上の情報を伝播するのではなく、まず入力特徴をチャネルワイドなグローバルベクトルに絞ることを学ぶ。
提案手法はエンドツーエンドのトレーニングブロックとしてモジュール化可能であり,既存のネットワークに簡単に接続可能であることを示す。
論文 参考訳(メタデータ) (2020-11-06T12:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。