論文の概要: Explaining the Unseen: Multimodal Vision-Language Reasoning for Situational Awareness in Underground Mining Disasters
- arxiv url: http://arxiv.org/abs/2512.09092v1
- Date: Tue, 09 Dec 2025 20:10:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.307793
- Title: Explaining the Unseen: Multimodal Vision-Language Reasoning for Situational Awareness in Underground Mining Disasters
- Title(参考訳): 地雷災害における状況認識のためのマルチモーダルビジョンランゲージ推論の解説
- Authors: Mizanur Rahman Jewel, Mohamed Elmahallawy, Sanjay Madria, Samuel Frimpong,
- Abstract要約: 地雷災害は広範囲の暗黒、塵、崩壊を発生させ、視界を曖昧にし、人間や従来のシステムにとって状況認識を困難にしている。
災害後の地下シーンの詳細な説明を自動的に生成する新しい視覚言語フレームワークであるMDSE(Multimodal Disaster situation Explainer)を提案する。
- 参考スコア(独自算出の注目度): 0.6533091401094101
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Underground mining disasters produce pervasive darkness, dust, and collapses that obscure vision and make situational awareness difficult for humans and conventional systems. To address this, we propose MDSE, Multimodal Disaster Situation Explainer, a novel vision-language framework that automatically generates detailed textual explanations of post-disaster underground scenes. MDSE has three-fold innovations: (i) Context-Aware Cross-Attention for robust alignment of visual and textual features even under severe degradation; (ii) Segmentation-aware dual pathway visual encoding that fuses global and region-specific embeddings; and (iii) Resource-Efficient Transformer-Based Language Model for expressive caption generation with minimal compute cost. To support this task, we present the Underground Mine Disaster (UMD) dataset--the first image-caption corpus of real underground disaster scenes--enabling rigorous training and evaluation. Extensive experiments on UMD and related benchmarks show that MDSE substantially outperforms state-of-the-art captioning models, producing more accurate and contextually relevant descriptions that capture crucial details in obscured environments, improving situational awareness for underground emergency response. The code is at https://github.com/mizanJewel/Multimodal-Disaster-Situation-Explainer.
- Abstract(参考訳): 地雷災害は広範囲の暗黒、塵、崩壊を発生させ、視界を曖昧にし、人間や従来のシステムにとって状況認識を困難にしている。
そこで,本稿では,災害後の地下シーンの詳細な説明を自動的に生成する視覚言語フレームワークであるMDSE,Multimodal Disaster situation Explainerを提案する。
MDSEには3つのイノベーションがあります。
一 過酷な劣化下であっても、視覚的特徴及びテキスト的特徴の堅牢な整合に対する文脈対応的相互注意
二 グローバル及び地域固有の埋め込みを融合させる分割認識二経路視覚符号化
三 資源効率のよいトランスフォーマーベース言語モデルで、最小計算コストで表現キャプションを生成すること。
この課題を支援するために,本研究は,地下地雷災害の現場を捉えた最初の画像撮影コーパスである,地雷災害データセット(UMD)を提示する。
UMDと関連するベンチマークの大規模な実験により、MDSEは最先端のキャプションモデルを大幅に上回り、不明瞭な環境で重要な詳細を捉え、地下緊急対応の状況認識を改善する、より正確で文脈的に関係のある記述を生み出している。
コードはhttps://github.com/mizanJewel/Multimodal-Disaster-Situation-Explainerにある。
関連論文リスト
- Semantics and Content Matter: Towards Multi-Prior Hierarchical Mamba for Image Deraining [95.00432497331583]
画像デライニングのためのマルチPrior Hierarchical Mamba (MPHM) ネットワーク
MPHMは、タスクレベルのセマンティックガイダンスのためのマクロセマンティックテキスト先行(CLIP)と、シーン認識構造情報のためのマイクロ構造視覚先行(DINOv2)を統合している。
実験ではMPHMの最先端のパフォーマンスを実証し、Rain200Hデータセットで0.57dBのPSNRゲインを達成した。
論文 参考訳(メタデータ) (2025-11-17T08:08:59Z) - Beyond Artificial Misalignment: Detecting and Grounding Semantic-Coordinated Multimodal Manipulations [56.816929931908824]
マルチモーダルデータにおける意味的協調操作の検出の先駆者となった。
本稿では,RamDG(Retrieval-Augmented Manipulation Detection and Grounding)フレームワークを提案する。
我々のフレームワークは既存の手法よりも優れており、SAMMの精度は最先端の手法に比べて2.06%高い。
論文 参考訳(メタデータ) (2025-09-16T04:18:48Z) - RIS-LAD: A Benchmark and Model for Referring Low-Altitude Drone Image Segmentation [26.836547579041067]
Referring ImageHide (RIS)は、自然言語の記述に基づいて特定のオブジェクトを分割することを目的としている。
既存のデータセットとメソッドは、一般的に高高度および静的な画像のために設計されている。
RIS-LADは、低高度ドローン(LAD)のシナリオ用に調整された、最初のきめ細かいRISベンチマークである。
論文 参考訳(メタデータ) (2025-07-28T15:21:03Z) - MONITRS: Multimodal Observations of Natural Incidents Through Remote Sensing [39.47126465689941]
我々は,1万件以上のFEMA災害イベントを,時空間衛星画像とニュース記事からの自然言語アノテーションで表現した新しいデータセットであるMONITRSを提示する。
既存のMLLMをデータセットに微調整することで,災害監視タスクの性能が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2025-07-22T04:59:09Z) - Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation [54.04601077224252]
身近なシーン理解には、視覚空間情報の理解だけでなく、3D物理世界における次の探索場所の決定も必要である。
アンダーラインテキストbf3D視覚言語学習は、エンボディエージェントが環境を効果的に探索し理解することを可能にする。
モデルの汎用性は、カテゴリ、言語記述、参照イメージなど、多様な入力モダリティを使ったナビゲーションを可能にする。
論文 参考訳(メタデータ) (2025-07-05T14:15:52Z) - SceneTAP: Scene-Coherent Typographic Adversarial Planner against Vision-Language Models in Real-World Environments [29.107550321162122]
本稿では,先進的な視覚言語モデルに誤解をもたらすような,シーンコヒーレントな対角攻撃を生成するための最初のアプローチを提案する。
提案手法は,どのテキストを生成するか,どのテキストをシーンに配置するか,どのようにシームレスに統合するかという,3つの重要な問題に対処する。
実験の結果,我々のシーンコヒーレントな敵対的テキストは,最先端のLVLMを誤解させることに成功した。
論文 参考訳(メタデータ) (2024-11-28T05:55:13Z) - Fine-Grained Spatial and Verbal Losses for 3D Visual Grounding [54.50661247353241]
3Dビジュアルグラウンドリングは、付随する言語記述によって参照される3Dシーンのインスタンスを識別する。
ほとんどの手法は、予測された候補インスタンス上の分布に対する基本的な教師付きクロスエントロピー損失に依存している。
本稿では,3次元視覚的接地における2つの新たな損失について紹介する。各インスタンスから接地構造参照インスタンスへの回帰ベクトルオフセットに対する視覚レベルオフセットの損失と,参照インスタンスの単語レベルスパンの予測における言語関連スパンの損失である。
論文 参考訳(メタデータ) (2024-11-05T18:39:25Z) - MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase
Grounding [74.33171794972688]
本稿では,詳細な視覚表現と視覚認識言語表現を活用することで,句オブジェクトの関連性をモデル化するアルゴリズムを提案する。
広く採用されているFlickr30kデータセットで実施された実験は、既存の弱教師付き手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-10-12T00:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。