Fugu-MT 論文翻訳(概要): Visual-Semantic Knowledge Conflicts in Operating Rooms: Synthetic Data Curation for Surgical Risk Perception in Multimodal Large Language Models

論文の概要: Visual-Semantic Knowledge Conflicts in Operating Rooms: Synthetic Data Curation for Surgical Risk Perception in Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2506.22500v1
Date: Wed, 25 Jun 2025 07:06:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-01 21:27:53.424586
Title: Visual-Semantic Knowledge Conflicts in Operating Rooms: Synthetic Data Curation for Surgical Risk Perception in Multimodal Large Language Models
Title（参考訳）: 手術室における視覚的意味的知識の衝突:多モーダル大言語モデルにおける外科的リスク知覚のための合成データキュレーション
Authors: Weiyi Zhao, Xiaoyu Tan, Liang Liu, Sijia Li, Youwei Song, Xihe Qiu,
Abstract要約: 拡散モデルにより生成された34,000以上の合成画像からなるデータセットを提案する。データセットには、バリデーションのためのゴールドスタンダード参照として機能する214の人間アノテーション付きイメージが含まれている。
参考スコア（独自算出の注目度）: 7.916129615051081
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Surgical risk identification is critical for patient safety and reducing preventable medical errors. While multimodal large language models (MLLMs) show promise for automated operating room (OR) risk detection, they often exhibit visual-semantic knowledge conflicts (VS-KC), failing to identify visual safety violations despite understanding textual rules. To address this, we introduce a dataset comprising over 34,000 synthetic images generated by diffusion models, depicting operating room scenes containing entities that violate established safety rules. These images were created to alleviate data scarcity and examine MLLMs vulnerabilities. In addition, the dataset includes 214 human-annotated images that serve as a gold-standard reference for validation. This comprehensive dataset, spanning diverse perspectives, stages, and configurations, is designed to expose and study VS-KC. Fine-tuning on OR-VSKC significantly improves MLLMs' detection of trained conflict entities and generalizes well to new viewpoints for these entities, but performance on untrained entity types remains poor, highlighting learning specificity and the need for comprehensive training. The main contributions of this work include: (1) a data generation methodology tailored for rule-violation scenarios; (2) the release of the OR-VSKC dataset and its associated benchmark as open-source resources; and (3) an empirical analysis of violation-sensitive knowledge consistency in representative MLLMs. The dataset and appendix are available at https://github.com/zgg2577/VS-KC.
Abstract（参考訳）: 外科的リスク識別は、患者の安全と予防可能な医療ミスを減らすために重要である。 MLLM(Multimodal large language model)は自動手術室(OR)のリスク検出を約束するが、それらはしばしば視覚的意味的知識紛争(VS-KC)を示す。これを解決するために,拡散モデルにより生成された34,000以上の合成画像からなるデータセットを導入し,確立された安全規則に違反したエンティティを含む手術室シーンを描写した。これらの画像はデータの不足を軽減し、MLLMの脆弱性を調べるために作成された。さらに、データセットには、バリデーションのためのゴールドスタンダード参照として機能する214の人間アノテーション付きイメージが含まれている。この包括的なデータセットは、さまざまな視点、ステージ、設定にまたがって、VS-KCを公開および研究するために設計されている。 OR-VSKCの微調整により、MLLMの訓練された競合エンティティの検出が大幅に改善され、これらのエンティティに対する新たな視点が一般化されるが、訓練されていないエンティティタイプのパフォーマンスは依然として貧弱であり、学習の特異性と包括的なトレーニングの必要性を強調している。本研究の主な貢献は,(1)ルール違反シナリオに適したデータ生成手法,(2)OR-VSKCデータセットとその関連するベンチマークをオープンソースリソースとしてリリースすること,(3)代表MLLMにおける違反に敏感な知識一貫性の実証分析である。データセットと付録はhttps://github.com/zgg2577/VS-KC.comで入手できる。

関連論文リスト

Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting [70.83781268763215]
視覚言語モデル(VLM)は、大規模事前学習を活用することで、多様なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。 VLMは、クロスモーダル機能ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット機能侵食など、ユニークな課題に直面している。本調査は、生涯の視覚言語システムを開発する研究者にとって、包括的かつ診断的な基準となることを目的としている。
論文参考訳（メタデータ） (2025-08-06T09:03:10Z)
ADSeeker: A Knowledge-Infused Framework for Anomaly Detection and Reasoning [17.249025173985697]
本稿では,知識基底推論による検査性能向上を目的とした異常タスクアシスタントであるADSeekerを提案する。業界異常検出(IAD)データの制限に対処するため,最大規模のADデータセットであるMulA(Multi-type Anomaly)を導入する。我々のプラグイン・アンド・プレイフレームワークであるADSeekerは、いくつかのベンチマークデータセットで最先端のゼロショット性能を実現しています。
論文参考訳（メタデータ） (2025-08-05T05:05:06Z)
MrM: Black-Box Membership Inference Attacks against Multimodal RAG Systems [31.53306157650065]
マルチモーダル検索拡張生成(RAG)システムは、クロスモーダル知識を統合することで、大きな視覚言語モデルを強化する。これらの知識データベースには、プライバシー保護を必要とする機密情報が含まれている可能性がある。 MrMはマルチモーダルRAGシステムを対象とした最初のブラックボックスMIAフレームワークである。
論文参考訳（メタデータ） (2025-06-09T03:48:50Z)
Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文参考訳（メタデータ） (2025-05-22T17:11:58Z)
Better Safe Than Sorry? Overreaction Problem of Vision Language Models in Visual Emergency Recognition [10.867962375420417]
我々は,100対のコントラスト画像からなる診断ベンチマークVERIを紹介する。医療現場, 事故, 自然災害を対象とする14の視覚言語モデル(VLM)を評価した。我々の分析では、モデルが真の緊急事態を正確に識別するが、偽陽性率が高い「過剰反応問題」が明らかになっている。
論文参考訳（メタデータ） (2025-05-21T10:57:40Z)
Decentralized LoRA Augmented Transformer with Context-aware Multi-scale Feature Learning for Secured Eye Diagnosis [2.1358421658740214]
本稿では、コンテキスト認識型マルチスケールパッチ埋め込み、ローランド適応(LoRA)、知識蒸留、フェデレーション学習を統合し、これらの課題に統一的に対処する新しいデータ効率画像変換器(DeiT)ベースのフレームワークを提案する。提案モデルでは,マルチスケールパッチ表現と局所的および大域的注意機構を活用することで,局所的および大域的網膜特徴を効果的に捉えている。
論文参考訳（メタデータ） (2025-05-11T13:51:56Z)
Transferable Adversarial Attacks on Black-Box Vision-Language Models [63.22532779621001]
敵対的攻撃は、テキストのみのコンテキストとビジョンのみのコンテキストにおいて、オープンソースからプロプライエタリなブラックボックスモデルに移行することができる。攻撃者は、特定の攻撃者による視覚情報の解釈を誘導するために、摂動を作れます。普遍的な摂動 -- 広い範囲のイメージに適用可能な修正 -- は、これらの誤解釈を一貫して引き起こすことを発見した。
論文参考訳（メタデータ） (2025-05-02T06:51:11Z)
SegSub: Evaluating Robustness to Knowledge Conflicts and Hallucinations in Vision-Language Models [6.52323086990482]
視覚言語モデル(VLM)は、高度なマルチモーダル推論を実証するが、知識の衝突に直面した場合には幻覚を起こす傾向がある。本研究は,VLMレジリエンスを知識衝突に対して調査するために,目標画像摂動を適用するフレームワークであるsegsubを紹介する。
論文参考訳（メタデータ） (2025-02-19T00:26:38Z)
Injecting Explainability and Lightweight Design into Weakly Supervised Video Anomaly Detection Systems [2.0179223501624786]
本稿では,知識蒸留とクロスモーダルコントラスト学習を活用したTCVADS(Two-stage Cross-modal Video Anomaly Detection System)を提案する。実験結果から,TCVADSはモデル性能,検出効率,解釈可能性において既存手法よりも優れていた。
論文参考訳（メタデータ） (2024-12-28T16:24:35Z)
Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文参考訳（メタデータ） (2024-10-08T17:59:03Z)
The Need for Guardrails with Large Language Models in Medical Safety-Critical Settings: An Artificial Intelligence Application in the Pharmacovigilance Ecosystem [0.6965384453064829]
大規模言語モデル(LLM)は、特定の種類の知識処理を効果的にスケールする能力を備えた有用なツールである。しかし、高リスクで安全に重要な領域への展開は、特に幻覚の問題など、ユニークな課題を生んでいる。これは特に、不正確さが患者を傷つける可能性がある薬物の安全性のような設定に関係している。我々は、特定の種類の幻覚と薬物安全性のエラーを軽減するために特別に設計されたガードレールのコンセプトスイートを開発し、実証した。
論文参考訳（メタデータ） (2024-07-01T19:52:41Z)
Improving Vision Anomaly Detection with the Guidance of Language Modality [64.53005837237754]
本稿では,マルチモーダルの観点から視覚モダリティの課題に取り組む。本稿では,冗長な情報問題とスパース空間問題に対処するために,クロスモーダルガイダンス(CMG)を提案する。視覚異常検出のためのよりコンパクトな潜在空間を学習するために、CMLEは言語モダリティから相関構造行列を学習する。
論文参考訳（メタデータ） (2023-10-04T13:44:56Z)
Vision-Language Modelling For Radiological Imaging and Reports In The Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文参考訳（メタデータ） (2023-03-30T18:20:00Z)
Cross-Modal Causal Intervention for Medical Report Generation [107.76649943399168]
放射線医学報告生成(RRG)は, コンピュータ支援診断と薬剤指導に不可欠である。視覚言語的バイアスによる急激な相関により、正確な病変記述の生成は依然として困難である。我々はCrossModal Causal Representation Learning (CMCRL)という2段階のフレームワークを提案する。 IU-XrayとMIMIC-CXRの実験により、我々のCMCRLパイプラインは最先端の手法よりも大幅に優れていることが示された。
論文参考訳（メタデータ） (2023-03-16T07:23:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。