論文の概要: RobustVisRAG: Causality-Aware Vision-Based Retrieval-Augmented Generation under Visual Degradations
- arxiv url: http://arxiv.org/abs/2602.22013v1
- Date: Wed, 25 Feb 2026 15:27:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.881837
- Title: RobustVisRAG: Causality-Aware Vision-Based Retrieval-Augmented Generation under Visual Degradations
- Title(参考訳): RobustVisRAG:視覚劣化下における因果認識型検索生成
- Authors: I-Hsiang Chen, Yu-Wei Liu, Tse-Yu Wu, Yu-Chien Chiang, Jen-Chien Yang, Wei-Ting Chen,
- Abstract要約: VisRAG(Retrieval-Augmented Generation)は、視覚言語モデル(VLM)を活用して、関連する視覚文書を共同で検索し、マルチモーダルな証拠に基づいて根拠付き回答を生成する。
既存のVisRAGモデルは、視覚入力がぼやけ、ノイズ、低光、シャドーなどの歪みに悩まされるときに性能が低下する。
因果誘導型デュアルパスフレームワークであるRobustVisRAGを導入し,効率とゼロショットの一般化を保ちながら,VisRAGの堅牢性を向上させる。
- 参考スコア(独自算出の注目度): 12.753436440584409
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-based Retrieval-Augmented Generation (VisRAG) leverages vision-language models (VLMs) to jointly retrieve relevant visual documents and generate grounded answers based on multimodal evidence. However, existing VisRAG models degrade in performance when visual inputs suffer from distortions such as blur, noise, low light, or shadow, where semantic and degradation factors become entangled within pretrained visual encoders, leading to errors in both retrieval and generation stages. To address this limitation, we introduce RobustVisRAG, a causality-guided dual-path framework that improves VisRAG robustness while preserving efficiency and zero-shot generalization. RobustVisRAG uses a non-causal path to capture degradation signals through unidirectional attention and a causal path to learn purified semantics guided by these signals. Together with the proposed Non-Causal Distortion Modeling and Causal Semantic Alignment objectives, the framework enforces a clear separation between semantics and degradations, enabling stable retrieval and generation under challenging visual conditions. To evaluate robustness under realistic conditions, we introduce the Distortion-VisRAG dataset, a large-scale benchmark containing both synthetic and real-world degraded documents across seven domains, with 12 synthetic and 5 real distortion types that comprehensively reflect practical visual degradations. Experimental results show that RobustVisRAG improves retrieval, generation, and end-to-end performance by 7.35%, 6.35%, and 12.40%, respectively, on real-world degradations, while maintaining comparable accuracy on clean inputs.
- Abstract(参考訳): VisRAG(Retrieval-Augmented Generation)は、視覚言語モデル(VLM)を活用して、関連する視覚文書を共同で検索し、マルチモーダルな証拠に基づいて根拠付き回答を生成する。
しかし、既存のVisRAGモデルは、ぼかし、ノイズ、低照度、シャドーなどの歪みに悩まされた場合のパフォーマンスが低下する。
この制限に対処するために、効率とゼロショットの一般化を保ちながら、VisRAGの堅牢性を向上する因果性誘導デュアルパスフレームワークであるRobustVisRAGを紹介する。
RobustVisRAGは、非因果経路を用いて、一方向の注意を通して劣化信号を捕捉し、因果経路を用いて、これらの信号によって導かれる浄化意味学を学ぶ。
提案された非因果歪みモデリングと因果意味アライメント(Causal Semantic Alignment)の目的とともに、このフレームワークは意味論と劣化を明確に分離し、困難な視覚条件下で安定した検索と生成を可能にする。
現実的な条件下でのロバスト性を評価するために、Distortion-VisRAGデータセットを導入し、実際の視覚的劣化を包括的に反映した12の合成および5つの実歪み型を含む、合成および実世界の劣化文書を含む大規模ベンチマークを行った。
実験の結果、ロバストVisRAGは、現実世界の劣化に対してそれぞれ7.35%、6.35%、12.40%の検索、生成、エンドツーエンドのパフォーマンスを改善し、クリーンな入力に対して同等の精度を維持していることがわかった。
関連論文リスト
- ERGO: Excess-Risk-Guided Optimization for High-Fidelity Monocular 3D Gaussian Splatting [63.138778159026934]
本稿では,ERGOと呼ばれる過度のリスク分解によって導かれる適応最適化フレームワークを提案する。
ERGOはビュー固有の過剰リスクを動的に推定し、最適化中の損失重みを適応的に調整する。
Google Scanned ObjectsデータセットとOmniObject3Dデータセットの実験は、既存の最先端メソッドよりもERGOの方が優れていることを示している。
論文 参考訳(メタデータ) (2026-02-10T20:44:43Z) - Improving Robustness of Vision-Language-Action Models by Restoring Corrupted Visual Inputs [6.2827295422415235]
VLA(Vision-Language-Action)モデルは、汎用的なロボット操作の主要なパラダイムとして登場した。
しかし、信頼性の高い現実世界の展開は、視覚障害に対する脆弱さによって著しく妨げられている。
センサ障害に対してVLAモデルを免疫するために設計された視覚変換器であるCRT(Corruption Restoration Transformer)を導入する。
論文 参考訳(メタデータ) (2026-02-01T11:09:08Z) - ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - Robust-R1: Degradation-Aware Reasoning for Robust Visual Understanding [54.05243949024302]
既存の堅牢なMLLMは、視覚エンコーダの一般化にのみ焦点をあてた暗黙のトレーニング/適応に依存している。
本稿では,構造的推論連鎖による視覚的劣化を明示的にモデル化する新しいフレームワークであるRobust-R1を提案する。
提案手法は, (i) 劣化を考慮した推論基盤の微調整, (ii) 劣化パラメータを正確に知覚するための報酬駆動アライメント, (iii) 劣化強度に適応した動的推論深度スケーリングの2つを統合した。
論文 参考訳(メタデータ) (2025-12-19T12:56:17Z) - RobustGait: Robustness Analysis for Appearance Based Gait Recognition [20.556295879194277]
本稿では、外見に基づく歩行認識システムのきめ細かい頑健性評価のためのフレームワークRobustGaitを提案する。
このベンチマークでは、CASIA-B、CCPG、SUSTech1Kの5つの重大レベルに15の汚職タイプを導入し、MEVIDの中間検証を行い、6つの最先端歩行システムを評価する。
RGBレベルでのノイズの適用は、現実世界の劣化を反映し、シルエット抽出によって下流歩行認識システムに歪みがどのように伝播するかを明らかにする。
論文 参考訳(メタデータ) (2025-11-17T07:12:06Z) - Robust Diagram Reasoning: A Framework for Enhancing LVLM Performance on Visually Perturbed Scientific Diagrams [0.81996963503528]
LLM(Large Language Models)とLVLM(Large Language Models)は、科学と工学の応用を大いに約束する。
既存の評価ベンチマークはこの課題を概ね見落としており、LVLMの堅牢な推論能力は過小評価されている。
本稿では,ロバストダイアグラム推論(RDR)フレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-08-23T09:50:58Z) - Benchmark Granularity and Model Robustness for Image-Text Retrieval [44.045767657945895]
データセットの粒度とクエリの摂動が検索性能とロバスト性にどのように影響するかを示す。
よりリッチなキャプションは、特にテキスト・ツー・イメージタスクにおいて、検索を継続的に強化することを示す。
本研究は, モデル頑健性の変化とキャプション粒度と感度摂動のデータセット依存的関係に着目した。
論文 参考訳(メタデータ) (2024-07-21T18:08:44Z) - DR2: Diffusion-based Robust Degradation Remover for Blind Face
Restoration [66.01846902242355]
ブラインド顔復元は通常、トレーニングのための事前定義された劣化モデルで劣化した低品質データを合成する。
トレーニングデータに現実のケースをカバーするために、あらゆる種類の劣化を含めることは、高価で実現不可能である。
本稿では、まず、劣化した画像を粗いが劣化不変な予測に変換し、次に、粗い予測を高品質な画像に復元するために拡張モジュールを使用するロバスト劣化再帰法(DR2)を提案する。
論文 参考訳(メタデータ) (2023-03-13T06:05:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。