論文の概要: From Clouds to Hallucinations: Atmospheric Retrieval Hijacking in Remote Sensing Vision-Language RAG
- arxiv url: http://arxiv.org/abs/2605.07273v1
- Date: Fri, 08 May 2026 05:36:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.826126
- Title: From Clouds to Hallucinations: Atmospheric Retrieval Hijacking in Remote Sensing Vision-Language RAG
- Title(参考訳): 雲から幻覚へ:リモートセンシングビジョンランゲージRAGにおける大気検索ハイジャック
- Authors: Jiaju Han, Chao Li, Chengyin Hu, Qike Zhang, Xuemeng Sun, Xin Wang, Fengyu Zhang, Xiang Chen, Yiwei Wei, Jiahuan Long, Jiujiang Guo,
- Abstract要約: CloudWebは、入力イメージのみを修正しつつ、レトリバー、ジェネレータ、知識ベースをデプロイ時に固定したままにしておく、大気検索ハイジャック攻撃である。
我々は、GeoRSCLIP、RemoteCLIP、OpenAI CLIP、OpenCLIPを含む5つのCLIPスタイルレトリバーを備えた7データセットリモートセンシングRAGベンチマークでCloudWebを評価した。
CloudWebは、レトリバー全体にわたって、クリーンな検索、手作りの大気ベースライン、ランダムな雲の摂動、そして気象関連の証拠をトップランクの結果に注入する固定された変種を一貫して上回っている。
- 参考スコア(独自算出の注目度): 12.942958995976307
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal RAG systems increasingly rely on vision-language retrievers to ground visual queries in external textual evidence. Existing adversarial studies on RAG mainly manipulate the retrieval corpus or memory, while attacks on vision-language and remote sensing models typically target end-task predictions. Input-space threats to the evidence retrieval stage of remote sensing multimodal RAG remain underexplored. To address this gap, we introduce CloudWeb, an atmospheric retrieval hijacking attack that modifies only the input image while keeping the retriever, generator, and knowledge base fixed at deployment. CloudWeb overlays parameterized cloud- and haze-like patterns on remote sensing images and optimizes them with a retrieval-oriented objective that pulls adversarial image embeddings toward target atmospheric evidence, suppresses source-scene evidence, enforces rank separation, and regularizes naturalness and coverage. To the best of our knowledge, this is the first study of retrieval-stage atmospheric evidence hijacking in remote sensing multimodal RAG. We evaluate CloudWeb on a seven-dataset remote sensing RAG benchmark with five CLIP-style retrievers, including GeoRSCLIP, RemoteCLIP, OpenAI CLIP, and OpenCLIP, together with downstream vision-language generators. Across retrievers, CloudWeb consistently outperforms clean retrieval, handcrafted atmospheric baselines, random cloud perturbations, and fixed variants in injecting weather-related evidence into top-ranked results. On GeoRSCLIP ViT-B/32, Weather@5 increases from 0.71\% to 43.29\%. Downstream generation further shows measurable weather hallucination and semantic shift, indicating that retrieval-stage hijacking can propagate to the final RAG response. These findings reveal a practical failure mode: natural-looking atmospheric changes can compromise evidence retrieval before generation begins.
- Abstract(参考訳): マルチモーダルRAGシステムは、視覚的なクエリを外部のテキストエビデンスでグラウンド化するために、視覚言語レトリバーにますます依存している。
RAGの既存の敵研究は、主に検索コーパスやメモリを操作するが、視覚言語やリモートセンシングモデルに対する攻撃は通常、エンドタスク予測をターゲットとしている。
リモートセンシングマルチモーダルRAGのエビデンス検索段階への入力空間の脅威は未解明のままである。
このギャップに対処するために、我々はCloudWebを紹介します。これは、入力画像だけを変更できる大気検索ハイジャック攻撃で、レトリバー、ジェネレータ、知識ベースをデプロイ時に固定しつつ、入力画像だけを修正します。
CloudWebは、パラメータ化されたクラウドやヘイズのようなパターンをリモートセンシングイメージ上にオーバーレイし、ターゲットの大気証拠に向けて敵画像の埋め込みを引っ張り、ソースシーンの証拠を抑圧し、ランク分離を強制し、自然さとカバレッジを規則化する、検索指向の目的でそれらを最適化する。
我々の知る限りでは、リモートセンシングマルチモーダルRAGにおける検索段階の大気証拠ハイジャックに関する最初の研究である。
我々は、GeoRSCLIP、RemoteCLIP、OpenAI CLIP、OpenCLIPを含む5つのCLIPスタイルレトリバーと、下流の視覚言語ジェネレータを備えた7データセットのリモートセンシングRAGベンチマークでCloudWebを評価した。
CloudWebは、レトリバー全体にわたって、クリーンな検索、手作りの大気ベースライン、ランダムな雲の摂動、そして気象関連の証拠をトップランクの結果に注入する固定された変種を一貫して上回っている。
GeoRSCLIP ViT-B/32 では、Weather@5 は 0.71 % から 43.29 % に増加する。
下流世代はさらに、観測可能な気象幻覚とセマンティックシフトを示し、検索段階のハイジャックが最終的なRAG応答に伝播することを示した。
自然に見える大気の変化は、生成が始まる前に証拠の検索を損なう可能性がある。
関連論文リスト
- Physically-Induced Atmospheric Adversarial Perturbations: Enhancing Transferability and Robustness in Remote Sensing Image Classification [54.952203312050564]
敵対的攻撃は、リモートセンシング(RS)画像分類におけるディープラーニングモデルの信頼性に深刻な脅威をもたらす。
本稿ではフォグフール(FogFool)を提案する。
2つのベンチマークRSデータセットの実験は、FogFoolが優れたパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2026-04-16T05:47:57Z) - Text Before Vision: Staged Knowledge Injection Matters for Agentic RLVR in Ultra-High-Resolution Remote Sensing Understanding [78.26501371437013]
超高解像度(UHR)リモートセンシング(RS)のためのマルチモーダル推論は通常、視覚的エビデンス取得によってボトルネックとなる。
標準的な強化学習は、ドメインの事前構造がなくても、これらの広大な視覚空間をナビゲートするのに苦労している。
本研究では,(1)スケーラブルで知識グラフで検証された地球科学のテキストQAで冷間開始して推論構造を挿入し,(2)SFT中に同じ硬いUHR画像テキストの例で事前ウォーミングを行い,その後のツールベースのRLを安定化・増幅する,段階的な知識注入レシピを提案する。
論文 参考訳(メタデータ) (2026-02-15T16:40:33Z) - VisRAG 2.0: Evidence-Guided Multi-Image Reasoning in Visual Retrieval-Augmented Generation [64.82775032985485]
視覚検索強化世代(VRAG)は視覚言語モデル(VLM)を外的視覚知識で拡張し、基礎推論を行い幻覚を減らす。
しかし、現在のVRAGシステムは、複数の画像に対して確実な認識と証拠の統合に失敗し、根拠の弱さと誤った結論に繋がることが多い。
EVisRAGは,エビデンス誘導型マルチイメージで推論を学習し,この問題に対処するエンド・ツー・エンドのフレームワークである。
論文 参考訳(メタデータ) (2025-10-10T13:34:23Z) - Worse than Zero-shot? A Fact-Checking Dataset for Evaluating the Robustness of RAG Against Misleading Retrievals [5.605770511387228]
RAGuardは、不正検索に対するRAGシステムの堅牢性を評価する最初のベンチマークである。
合成ノイズに依存する以前のベンチマークとは異なり、ファクトチェックデータセットは自然に発生する誤報をキャプチャする。
論文 参考訳(メタデータ) (2025-02-22T05:50:15Z) - Continual All-in-One Adverse Weather Removal with Knowledge Replay on a
Unified Network Structure [92.8834309803903]
現実の応用では、悪天候による画像の劣化は常に複雑で、日や季節によって異なる気象条件で変化する。
我々は,ネットワーク構造を統一した上で,効果的な知識再生(KR)を実現するための新しい連続学習フレームワークを開発した。
連続学習における複数の退化を伴う画像復元作業の特徴を考察し、異なる退化に関する知識を共有・蓄積することができる。
論文 参考訳(メタデータ) (2024-03-12T03:50:57Z) - Defense against Adversarial Cloud Attack on Remote Sensing Salient
Object Detection [21.028664417133793]
本稿では,雲に近づいた画像に対して,対向露光と加法摂動を伴って調整することを提案する。
DefenseNetは、提案されているAdversarial Cloudをホワイトボックス設定で防御し、ブラックボックス設定で他のアタックメソッドを防御することができる。
論文 参考訳(メタデータ) (2023-06-30T07:06:13Z) - Exploring the Application of Large-scale Pre-trained Models on Adverse
Weather Removal [97.53040662243768]
ネットワークが異なる気象条件を適応的に処理できるようにするために,CLIP埋め込みモジュールを提案する。
このモジュールは、CLIP画像エンコーダによって抽出されたサンプル特定気象と、パラメータセットによって学習された分布特定情報を統合する。
論文 参考訳(メタデータ) (2023-06-15T10:06:13Z) - An Empirical Study of Remote Sensing Pretraining [117.90699699469639]
本研究では,空中画像におけるリモートセンシング事前訓練(RSP)の実証的研究を行った。
RSPは、シーン認識タスクで特有のパフォーマンスを提供するのに役立つ。
RSPは、従来のイメージネットがRS画像に事前学習する際のデータ格差を緩和するが、それでもタスクの相違に悩まされる可能性がある。
論文 参考訳(メタデータ) (2022-04-06T13:38:11Z) - Adversarial Attacks against a Satellite-borne Multispectral Cloud
Detector [33.11869627537352]
本稿では,ディープラーニングによる攻撃に対するクラウド検出の脆弱性を明らかにする。
敵のパターンを最適化し、それを雲のないシーンに重ね合わせることで、ニューラルネットワークを偏り、シーン内の雲を検出する。
これは多目的攻撃の可能性、特に雲に敏感なバンドにおける敵バイアスと可視光バンドにおける視覚的カモフラージュの可能性を開放する。
論文 参考訳(メタデータ) (2021-12-03T05:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。