論文の概要: SurgCheck: Do Vision-Language Models Really Look at Images in Surgical VQA?
- arxiv url: http://arxiv.org/abs/2605.01911v2
- Date: Tue, 05 May 2026 13:32:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 14:45:21.2513
- Title: SurgCheck: Do Vision-Language Models Really Look at Images in Surgical VQA?
- Title(参考訳): SurgCheck: ヴィジュアル・ランゲージのモデルは、手術用VQAの画像を見るか?
- Authors: Jongmin Shin, Ka Young Kim, Eunki Cho, Seong Tae Kim, Namkee Oh,
- Abstract要約: 視覚言語モデル(VLM)は、外科的視覚質問応答(VQA)において有望な性能を示す。
報告されたパフォーマンスが、このような言語的ショートカットへの依存や視覚的理解を反映しているかどうかは不明である。
本稿では,外科的VQAにおける言語的ショートカット依存度を定量化するための診断ベンチマークであるSurgCheckを紹介する。
- 参考スコア(独自算出の注目度): 4.831595834944456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Purpose: Vision-language models (VLMs) have shown promising performance in surgical visual question answering (VQA). However, existing surgical VQA datasets often contain linguistic shortcuts, where question phrasing implicitly constrains the answer space. It remains unclear whether reported performance reflects visual understanding or reliance on such linguistic shortcuts. Methods: We introduce SurgCheck, a diagnostic benchmark for quantifying linguistic shortcut reliance in surgical VQA. SurgCheck employs a paired-question design in which each surgical frame is associated with an original question containing entity names and a less-biased counterpart that removes these names while preserving identical visual content and ground-truth answers. The resulting performance gap provides a diagnostic signal of shortcut reliance. To ensure that the less-biased question remains well-defined even without entity names, four grounding cues are incorporated: bounding box, arrow, spatial position, and periphrasis. We evaluate both general-purpose and surgical-specific VLMs under zero-shot and fine-tuned settings on SurgCheck. To evaluate open-ended zero-shot responses, we introduce an LLM-as-a-judge evaluation protocol. Results: Using SurgCheck, we observe consistent performance degradation on less-biased questions across five VLMs, despite identical visual inputs. Text-only ablation reveals minimal performance drops for action and target prediction, indicating that action and target prediction is largely driven by linguistic shortcuts rather than visual reasoning. Conclusion: SurgCheck provides a controlled diagnostic framework that exposes failure modes masked by linguistic bias in existing surgical VQA benchmarks. Our findings demonstrate that strong benchmark performance does not necessarily imply faithful visual understanding, underscoring the need for bias-aware evaluation in surgical VQA.
- Abstract(参考訳): 目的:視覚言語モデル(VLM)は,外科的視覚質問応答(VQA)において有望な性能を示した。
しかしながら、既存の外科的VQAデータセットは、しばしば言語的ショートカットを含んでおり、質問は答え空間を暗黙的に制限する。
報告されたパフォーマンスが、このような言語的ショートカットへの依存や視覚的理解を反映しているかどうかは不明だ。
方法: 外科的VQAにおける言語的ショートカット依存度を定量化するための診断ベンチマークであるSurgCheckを紹介する。
SurgCheckは、それぞれの手術フレームにエンティティ名を含む元の質問と、同一の視覚的内容と地味な回答を保持しながらこれらの名前を削除するバイアスの低い質問を関連付けるペアクエストデザインを採用している。
結果として生じるパフォーマンスギャップは、ショートカット依存の診断信号を提供する。
エンティティ名がなくても、バイアスの少ない質問が適切に定義されていることを保証するため、バウンディングボックス、矢印、空間位置、およびペリフラシスの4つのグラウンドングキューが組み込まれている。
SurgCheckのゼロショットおよび微調整条件下での汎用VLMおよび外科用VLMの評価を行った。
LLM-as-a-judge 評価プロトコルを導入する。
結果: SurgCheckを用いて, 視覚的入力が同一であるにもかかわらず, 5つのVLMにおいて, バイアスの少ない質問に対して一貫した性能劣化を観測した。
テキストのみのアブレーションでは、アクションとターゲット予測のパフォーマンス低下が最小限に抑えられ、アクションとターゲット予測は視覚的推論ではなく言語的ショートカットによって主に駆動されることを示している。
結論: SurgCheckは、既存の外科的VQAベンチマークで言語バイアスで隠された障害モードを公開する制御された診断フレームワークを提供する。
以上の結果から,強いベンチマーク性能は必ずしも忠実な視覚的理解を示唆するものではないことが示唆され,外科的VQAにおけるバイアス認識評価の必要性が示唆された。
関連論文リスト
- MedObvious: Exposing the Medical Moravec's Paradox in VLMs via Clinical Triage [20.835664121303534]
ビジョン言語モデル(VLM)は、医療報告生成や視覚的質問応答といったタスクにますます使われています。
臨床実践では、解釈は診断前の衛生検査から始まる。
既存のベンチマークでは、このステップが解決されたと仮定しており、致命的な障害モードを見逃している。
我々は1,880タスクのベンチマークであるMedObviousを導入し、入力検証をセットレベルの一貫性機能として分離する。
論文 参考訳(メタデータ) (2026-03-24T17:59:54Z) - Seeing Through Words: Controlling Visual Retrieval Quality with Language Models [68.49490036960559]
本稿では,画像品質の明示的な概念を取り入れつつ,文脈的詳細で短いクエリを充実させる,品質制御可能な検索の新たなパラダイムを提案する。
我々のキーとなる考え方は、生成言語モデルをクエリ補完関数として活用し、未特定クエリを記述形式に拡張することです。
提案手法は,検索結果を大幅に改善し,最新のVLMの表現能力と,短いユーザクエリの未特定特性とのギャップを埋める,効果的な品質管理を提供する。
論文 参考訳(メタデータ) (2026-02-24T18:20:57Z) - SurgViVQA: Temporally-Grounded Video Question Answering for Surgical Scene Understanding [11.424693319143715]
外科領域におけるビデオ質問応答 (Video Question Answering, VideoQA) は, 時間的に整合した事象をAIモデルで推論することで, 術中理解を高めることを目的としている。
静的画像から動的手術シーンへの視覚的推論を拡張するモデルであるSurgViVQAを提案する。
Masked Video-Textを使ってビデオと質問機能を融合し、モーションやツール間のインタラクションなどの時間的手がかりをキャプチャする。
論文 参考訳(メタデータ) (2025-11-05T09:40:16Z) - SurgAnt-ViVQA: Learning to Anticipate Surgical Events through GRU-Driven Temporal Cross-Attention [10.149538951173598]
鼻腔鏡下下下垂体手術のリアルタイム支援には,今後の外科的事象の予測が不可欠である。
ほとんどの視覚的質問応答(VQA)システムは、静的視覚言語アライメントを持つ独立したフレームを推論する。
先見的外科的推論のために設計された最初のVQAデータセットであるPitVQA-Anticipationを紹介する。
論文 参考訳(メタデータ) (2025-11-05T04:55:11Z) - Trust but Verify: Programmatic VLM Evaluation in the Wild [62.14071929143684]
プログラム型VLM評価(Programmatic VLM Evaluation、PROVE)は、オープンなクエリに対するVLM応答を評価するための新しいベンチマークパラダイムである。
我々は,PROVE上でのVLMの有効性-実効性トレードオフをベンチマークした結果,両者のバランスが良好であることは極めて少ないことがわかった。
論文 参考訳(メタデータ) (2024-10-17T01:19:18Z) - Advancing Surgical VQA with Scene Graph Knowledge [45.05847978115387]
我々は,シーングラフの知識を用いて,外科的文脈における視覚的質問応答を推し進めることを目指している。
我々は,楽器や解剖の空間的および行動的情報を用いた手術シーングラフを構築した。
軽量Scene-embedded Interaction Module(SIM)を用いた新しい手術用VQAモデルであるSSG-QA-Netを提案する。
論文 参考訳(メタデータ) (2023-12-15T22:50:12Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - Surgical-VQLA: Transformer with Gated Vision-Language Embedding for
Visual Question Localized-Answering in Robotic Surgery [18.248882845789353]
本研究では,ロボット支援型手術シーンと記録映像からのアクティビティ理解を容易にするための手術質問応答システムを開発した。
既存のVQA手法の多くは、視覚的特徴を抽出し、答え生成のための質問の埋め込みテキストと融合するために、オブジェクト検出器と領域ベースの特徴抽出器を必要とする。
そこで我々は,ロボット手術における視覚的質問の局所化-回答(Surgical-VQLA)を提案し,回答予測中に特定の手術領域を局所化する。
論文 参考訳(メタデータ) (2023-05-19T14:13:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。