論文の概要: Robust Diagram Reasoning: A Framework for Enhancing LVLM Performance on Visually Perturbed Scientific Diagrams
- arxiv url: http://arxiv.org/abs/2508.16972v1
- Date: Sat, 23 Aug 2025 09:50:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.275434
- Title: Robust Diagram Reasoning: A Framework for Enhancing LVLM Performance on Visually Perturbed Scientific Diagrams
- Title(参考訳): Robust Diagram Reasoning: 視覚的に摂動された科学図上でのLVLM性能向上のためのフレームワーク
- Authors: Minghao Zhou, Rafael Souza, Yaqian Hu, Luming Che,
- Abstract要約: LLM(Large Language Models)とLVLM(Large Language Models)は、科学と工学の応用を大いに約束する。
既存の評価ベンチマークはこの課題を概ね見落としており、LVLMの堅牢な推論能力は過小評価されている。
本稿では,ロバストダイアグラム推論(RDR)フレームワークについて紹介する。
- 参考スコア(独自算出の注目度): 0.81996963503528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) and their multimodal variants (LVLMs) hold immense promise for scientific and engineering applications, particularly in processing visual information like scientific diagrams. However, their practical deployment is hindered by a critical lack of robustness to common visual perturbations such as noise, blur, and occlusions, which are prevalent in real-world scientific documents. Existing evaluation benchmarks largely overlook this challenge, leaving the robust reasoning capabilities of LVLMs on visually degraded scientific diagrams underexplored. To address this, we introduce the Robust Diagram Reasoning (RDR) framework, a novel approach designed to enhance and rigorously evaluate LVLMs' performance under such conditions. At its core, RDR employs an Adaptive Multi-View & Consistency Verification (AMCV) mechanism, which involves generating multiple perturbed versions of a diagram, performing parallel inference, and then applying a consistency-based self-correction loop. We also propose two new metrics, Perturbation Robustness Score (PRS) and Visual Degradation Consistency (VDC), to quantify robustness. Furthermore, we construct SciDiagram-Robust, the first large-scale scientific diagram question-answering dataset specifically augmented with diverse, programmatically generated visual perturbations. Our extensive experiments demonstrate that even state-of-the-art closed-source LVLMs like GPT-4V exhibit significant performance degradation when faced with perturbed inputs (Clean Accuracy 85.2% vs. PRS 72.1%).
- Abstract(参考訳): 大規模言語モデル(LLM)とそのマルチモーダル変種(LVLM)は、科学や工学の応用、特に科学図のような視覚情報の処理において大きな可能性を秘めている。
しかし、彼らの実践的な展開は、現実の科学的文書でよく見られるノイズ、ぼやけ、閉塞といった一般的な視覚的摂動に対する堅牢性の欠如によって妨げられている。
既存の評価ベンチマークでは、この課題を概ね見落としており、視覚的に劣化した科学図にLVLMの堅牢な推論能力が残されている。
そこで本稿では,LVLMの性能向上と評価を目的とした新しい手法であるRobust Diagram Reasoning(RDR)フレームワークを提案する。
RDRのコアとなるのはAdaptive Multi-View & Consistency Verification(AMCV)メカニズムで、ダイアグラムの複数の摂動バージョンを生成し、並列推論を実行し、一貫性に基づいた自己補正ループを適用する。
また、ロバストネスの定量化のために、摂動ロバストネススコア(PRS)と視覚劣化一貫性(VDC)という2つの新しい指標を提案する。
さらに,SciDiagram-Robustは,多種多様なプログラムによる視覚摂動を具体化した,最初の大規模科学図質問応答データセットである。
GPT-4Vのような最先端のクローズドソースLVLMでさえ摂動入力に直面すると顕著な性能低下を示す(Clean Accuracy 85.2% vs. PRS 72.1%)。
関連論文リスト
- One-Step Diffusion-based Real-World Image Super-Resolution with Visual Perception Distillation [53.24542646616045]
画像超解像(SR)生成に特化して設計された新しい視覚知覚拡散蒸留フレームワークであるVPD-SRを提案する。
VPD-SRは2つのコンポーネントから構成される: 明示的セマンティック・アウェア・スーパービジョン(ESS)と高周波知覚(HFP)損失。
提案したVPD-SRは,従来の最先端手法と教師モデルの両方と比較して,たった1ステップのサンプリングで優れた性能が得られる。
論文 参考訳(メタデータ) (2025-06-03T08:28:13Z) - Vad-R1: Towards Video Anomaly Reasoning via Perception-to-Cognition Chain-of-Thought [58.321044666612174]
Vad-R1は、ビデオ異常推論のためのエンドツーエンドのMLLMベースのフレームワークである。
我々は、異常を認識する人間の過程をシミュレートするパーセプション・トゥ・コグニション・チェーン・オブ・ワット(P2C-CoT)を設計する。
また,MLLMの異常推論能力を明示的に動機付ける改良型強化学習アルゴリズムAVA-GRPOを提案する。
論文 参考訳(メタデータ) (2025-05-26T12:05:16Z) - Unveiling the Lack of LVLM Robustness to Fundamental Visual Variations: Why and Path Forward [1.7971686967440696]
V$2$R-Benchは、LVLMの視覚変化ロバスト性を評価するためのベンチマークフレームワークである。
本研究では,複雑な視覚言語タスクに優れた高度なモデルが,オブジェクト認識などの単純なタスクでは著しく性能が劣っていることを示す。
これらの脆弱性は、パイプラインアーキテクチャにおけるエラーの蓄積と、マルチモーダルアライメントの不十分に起因する。
論文 参考訳(メタデータ) (2025-04-23T14:01:32Z) - SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - Towards Evaluating the Robustness of Visual State Space Models [63.14954591606638]
視覚状態空間モデル(VSSM)は視覚知覚タスクにおいて顕著な性能を示した。
しかし、自然と敵対的な摂動の下での頑丈さは依然として重要な懸念事項である。
様々な摂動シナリオ下でのVSSMの頑健さを総合的に評価する。
論文 参考訳(メタデータ) (2024-06-13T17:59:44Z) - Calibrated Self-Rewarding Vision Language Models [27.686545023186852]
LVLM(Large Vision-Language Models)は、訓練済みの大規模言語モデル(LLM)と視覚モデルを統合することで、指導チューニングを通じて大幅に進歩した。
LVLMは、しばしば幻覚現象を示し、生成されたテキスト応答は言語的に妥当に見えるが、入力画像に矛盾する。
本稿では,候補応答を反復的に生成し,各応答に対する報酬を評価し,微調整のための選好データをキュレートすることで,モデルの自己改善を可能にするCalibrated Self-Rewarding(CSR)アプローチを提案する。
論文 参考訳(メタデータ) (2024-05-23T14:30:33Z) - Debiasing Multimodal Large Language Models via Penalization of Language Priors [38.97645845493758]
MLLM(Multimodal Large Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
生成されたコンテンツは、入力画像よりも、基礎となるLarge Language Models (LLMs) の本質的な先行性によって駆動されることが多い。
本稿では、これらのバイアスを補正し、視覚情報に対するモデルの焦点をリダイレクトするための、単純でトレーニングのない2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - CogCoM: A Visual Language Model with Chain-of-Manipulations Reasoning [61.21923643289266]
カオス・オブ・マニピュレーション(Chain of Manipulations)は、視覚言語モデル(Vision-Language Models)が、エビデンスを段階的に解決するメカニズムである。
トレーニング後、モデルは外部ツールを介さずに、本質的な操作(グラウンド、ズームインなど)を積極的に行うことで、様々な視覚的問題を解決することができる。
トレーニングされたモデルである textbfCogCoM は、4つのカテゴリの9つのベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-02-06T18:43:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。