論文の概要: RemoteShield: Enable Robust Multimodal Large Language Models for Earth Observation
- arxiv url: http://arxiv.org/abs/2604.17243v1
- Date: Sun, 19 Apr 2026 04:04:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.412587
- Title: RemoteShield: Enable Robust Multimodal Large Language Models for Earth Observation
- Title(参考訳): RemoteShield:地球観測のためのロバストなマルチモーダル大言語モデル
- Authors: Rui Min, Liang Yao, Shiyu Miao, Shengxiang Xu, Yuxuan Liu, Chuanyi Zhang, Shimin Di, Fan Liu,
- Abstract要約: リアルな入力変動に対して一貫した出力を維持するために訓練された、堅牢なリモートセンシングMLLMであるRemoteShieldを紹介する。
RemoteShieldは、同じクラスタ内のクリーンで摂動的な条件よりも、好みの学習によって最適化される。
実験によると、RemoteShieldは、代表ベースラインよりも強い堅牢性と条件間の一貫性を提供する。
- 参考スコア(独自算出の注目度): 29.763691596393056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A robust Multimodal Large Language Model (MLLM) for Earth Observation should maintain consistent interpretation and reasoning under realistic input variations. However, current Remote Sensing MLLMs fail to meet this requirement. Trained on carefully curated clean datasets, they learn brittle mappings that do not generalize to noisy conditions in operational Earth Observation. Consequently, their performance degrades when confronted with imperfect inputs in deployment. To quantify this vulnerability, we construct a realistic set of multimodal perturbations, including visual degradations such as cloud and fog cover, together with diverse human-centric textual variations ranging from colloquialisms to vague or omitted instructions. Empirical evaluations show that these perturbations significantly impair the visual-semantic reasoning capabilities of leading RS foundation models. To address this limitation, we introduce RemoteShield, a robust Remote Sensing MLLM trained to maintain consistent outputs across realistic input variations. During training, each clean sample is paired with its image-text perturbed variants to form a semantic equivalence cluster. Rather than directly fitting noisy samples, RemoteShield is optimized through preference learning over clean and perturbed conditions within the same cluster. By comparing model responses to clean and corrupted inputs, the model is encouraged to favor stable responses over perturbation-induced failures. This cross-condition alignment helps the model focus on underlying task semantics despite visual degradations and textual noise. Experiments on three Earth Observation tasks show that RemoteShield consistently delivers stronger robustness and cross-condition consistency than representative baselines under realistic multimodal perturbations.
- Abstract(参考訳): 地球観測のための堅牢なマルチモーダル大言語モデル(MLLM)は、現実的な入力変動の下で一貫した解釈と推論を維持するべきである。
しかし、現在のリモートセンシングMLLMは、この要件を満たしていない。
慎重にキュレートされたクリーンなデータセットに基づいて、彼らは、運用中の地球観測においてノイズの多い条件に一般化しない脆いマッピングを学習する。
その結果、デプロイメントにおける不完全な入力に直面するとパフォーマンスが低下する。
この脆弱性を定量化するために、雲や霧などの視覚的劣化を含む現実的なマルチモーダル摂動と、口語から曖昧または省略的な指示まで多種多様な人間中心のテキストのバリエーションを構築した。
経験的評価により、これらの摂動は主要なRS基盤モデルの視覚・意味的推論能力を著しく損なうことが示された。
この制限に対処するために、現実的な入力変動に対して一貫した出力を維持するために訓練された堅牢なリモートセンシングMLLMであるRemoteShieldを導入する。
トレーニング中、各クリーンサンプルは、イメージテキストの摂動変異とペアになってセマンティックな等価クラスタを形成する。
ノイズの多いサンプルを直接適合させるのではなく、RemoteShieldは、同じクラスタ内のクリーンで摂動的な条件よりも、好みの学習によって最適化される。
モデル応答とクリーンな入力と破損した入力を比較することにより、モデルが摂動による障害に対して安定した応答を推奨する。
このクロスコンディションアライメントは、視覚的劣化やテキストノイズにもかかわらず、モデルが基礎となるタスクセマンティクスにフォーカスするのに役立つ。
3つの地球観測タスクの実験では、RemoteShieldは、現実的なマルチモーダル摂動の下で、代表的ベースラインよりも強い強靭性とクロスコンディションの一貫性を提供する。
関連論文リスト
- Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。
このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文 参考訳(メタデータ) (2026-02-06T12:24:26Z) - Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。
シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。
マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文 参考訳(メタデータ) (2025-10-09T04:48:49Z) - Reasoning Multimodal Large Language Model: Data Contamination and Dynamic Evaluation [9.434966074326056]
MLLM(Multimodal Large Language Models)は、視覚ベースのベンチマーク性能を示すが、真の一般化を隠蔽するデータ汚染リスクへの懸念が増大している。
静的ベンチマークを超えてMLLMの一般化を厳格に評価する新しい動的評価フレームワークを提案する。
シミュレーションテストデータ(極端汚染)の微調整はタスク固有の性能を大幅に向上させるが、全体的な一般化には悪影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2025-06-08T15:52:38Z) - Shaking to Reveal: Perturbation-Based Detection of LLM Hallucinations [25.18901449626428]
自己評価として知られる幻覚を検出するための広く採用されている戦略は、その答えの事実的正確さを推定するために、モデル自身の出力信頼度に依存する。
中間表現における摂動感度を解析することにより自己評価を改善する新しいフレームワークSSPを提案する。
SSPは幻覚検出ベンチマークの範囲で先行手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-06-03T09:44:28Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Spatial-Temporal-Spectral Unified Modeling for Remote Sensing Dense Prediction [20.1863553357121]
リモートセンシングのための現在のディープラーニングアーキテクチャは、基本的に堅固である。
本稿では,統合モデリングのための空間時間スペクトル統一ネットワーク(STSUN)について紹介する。
STSUNは任意の空間サイズ、時間長、スペクトル帯域で入力および出力データに適応することができる。
様々な密集した予測タスクと多様な意味クラス予測を統一する。
論文 参考訳(メタデータ) (2025-05-18T07:39:17Z) - Towards Evaluating the Robustness of Visual State Space Models [63.14954591606638]
視覚状態空間モデル(VSSM)は視覚知覚タスクにおいて顕著な性能を示した。
しかし、自然と敵対的な摂動の下での頑丈さは依然として重要な懸念事項である。
様々な摂動シナリオ下でのVSSMの頑健さを総合的に評価する。
論文 参考訳(メタデータ) (2024-06-13T17:59:44Z) - VDC: Versatile Data Cleanser based on Visual-Linguistic Inconsistency by Multimodal Large Language Models [46.72546879204724]
現実の世界では、データセットには、バックドア攻撃による毒サンプル、クラウドソーシングにおけるノイズの多いラベル、さらにはそれらのハイブリッドなど、汚れたサンプルが含まれている。
既存の検出器は、他のドメインの汚れたサンプルを扱う場合、しばしば一般化が弱くなるような、有毒なサンプルやノイズのあるラベルを検出することのみに焦点を当てている。
マルチモーダル大規模言語モデル(MLLM)の超越した機能を利用した多目的データクリーニング(VDC)を提案する。
論文 参考訳(メタデータ) (2023-09-28T07:37:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。