論文の概要: Toward Autonomous Laboratory Safety Monitoring with Vision Language Models: Learning to See Hazards Through Scene Structure
- arxiv url: http://arxiv.org/abs/2602.00414v1
- Date: Sat, 31 Jan 2026 00:08:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.172453
- Title: Toward Autonomous Laboratory Safety Monitoring with Vision Language Models: Learning to See Hazards Through Scene Structure
- Title(参考訳): 視覚言語モデルを用いた自律型実験室の安全監視に向けて--シーン構造を通してのハザードの探索
- Authors: Trishna Chakraborty, Udita Ghosh, Aldair Ernesto Gongora, Ruben Glatt, Yue Dong, Jiachen Li, Amit K. Roy-Chowdhury, Chengyu Song,
- Abstract要約: 実験室は軽微な不安全行為によって重傷を負う傾向がある。
継続的な安全監視は 人間の可用性によって制限されます
ビジョン言語モデル(VLM)は、自律的な実験室の安全監視を約束する。
- 参考スコア(独自算出の注目度): 26.434430112145137
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Laboratories are prone to severe injuries from minor unsafe actions, yet continuous safety monitoring -- beyond mandatory pre-lab safety training -- is limited by human availability. Vision language models (VLMs) offer promise for autonomous laboratory safety monitoring, but their effectiveness in realistic settings is unclear due to the lack of visual evaluation data, as most safety incidents are documented primarily as unstructured text. To address this gap, we first introduce a structured data generation pipeline that converts textual laboratory scenarios into aligned triples of (image, scene graph, ground truth), using large language models as scene graph architects and image generation models as renderers. Our experiments on the synthetic dataset of 1,207 samples across 362 unique scenarios and seven open- and closed-source models show that VLMs perform effectively given textual scene graph, but degrade substantially in visual-only settings indicating difficulty in extracting structured object relationships directly from pixels. To overcome this, we propose a post-training context-engineering approach, scene-graph-guided alignment, to bridge perceptual gaps in VLMs by translating visual inputs into structured scene graphs better aligned with VLM reasoning, improving hazard detection performance in visual only settings.
- Abstract(参考訳): 実験室は軽微な不安全行為による重傷を負う傾向にあるが、連続的な安全監視は必須のプレラボ安全性トレーニング以上のもので、人間の手元に限られている。
視覚言語モデル(VLM)は、自律的な実験室の安全監視を約束するが、視覚的評価データが欠如していることから、現実的な環境での有効性は明らかではない。
このギャップに対処するために、我々はまず構造化データ生成パイプラインを導入し、大規模な言語モデルをシーングラフアーキテクトとして、画像生成モデルをレンダラーとして使用し、テキスト実験のシナリオを3つの整列(画像、シーングラフ、地上真実)に変換する。
筆者らは,362のシナリオと7つのオープンソースモデルからなる1,207個のサンプルの合成データセットを用いて,VLMが与えられたテキストシーングラフを効果的に処理することを示した。
そこで本稿では,視覚のみの設定において,視覚的入力をVLM推論に適合した構造化されたシーングラフに変換することで,視覚のみの設定における危険検出性能を向上させることにより,VLMの知覚的ギャップを埋める,学習後コンテキストエンジニアリングアプローチであるシーングラフ誘導アライメントを提案する。
関連論文リスト
- Attention Guided Alignment in Efficient Vision-Language Models [56.20286899428444]
VLM(Large Vision-Language Models)は、事前訓練された視覚エンコーダとLLM(Large Language Models)の効果的なマルチモーダルアライメントに依存している。
本稿では,効率的なVLMにおける注意パターンの包括的解析について述べる。
本稿では,Attention-Guided Efficient Vision-Language Models (AGE-VLM)を紹介する。
論文 参考訳(メタデータ) (2025-11-21T21:36:48Z) - Scene Graph-Guided Generative AI Framework for Synthesizing and Evaluating Industrial Hazard Scenarios [0.0]
職場の危険を正確に検出するための視覚モデルの訓練には、事故につながる危険条件のリアルなイメージが必要である。
本研究では,OSHA(Occupational Safety and Health Administration)の事故報告に基づく危険シナリオのフォトリアリスティックなイメージを合成する,新しいシーングラフ誘導型生成AIフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-17T22:58:27Z) - Visual-Semantic Knowledge Conflicts in Operating Rooms: Synthetic Data Curation for Surgical Risk Perception in Multimodal Large Language Models [7.916129615051081]
拡散モデルにより生成された34,000以上の合成画像からなるデータセットを提案する。
データセットには、バリデーションのためのゴールドスタンダード参照として機能する214の人間アノテーション付きイメージが含まれている。
論文 参考訳(メタデータ) (2025-06-25T07:06:29Z) - Vision language models are unreliable at trivial spatial cognition [0.2902243522110345]
視覚言語モデル(VLM)は、画像から関連する視覚空間情報を抽出するように設計されている。
そこで我々は,テーブル上に配置されたオブジェクトの3Dシーンを画像で表現したベンチマークデータセットであるTableTestを開発し,それを最先端のVLMの評価に使用した。
結果は、同等の記述を使用するプロンプトの小さなバリエーションによって、パフォーマンスが劣化する可能性があることを示している。
論文 参考訳(メタデータ) (2025-04-22T17:38:01Z) - SceneTAP: Scene-Coherent Typographic Adversarial Planner against Vision-Language Models in Real-World Environments [29.107550321162122]
本稿では,先進的な視覚言語モデルに誤解をもたらすような,シーンコヒーレントな対角攻撃を生成するための最初のアプローチを提案する。
提案手法は,どのテキストを生成するか,どのテキストをシーンに配置するか,どのようにシームレスに統合するかという,3つの重要な問題に対処する。
実験の結果,我々のシーンコヒーレントな敵対的テキストは,最先端のLVLMを誤解させることに成功した。
論文 参考訳(メタデータ) (2024-11-28T05:55:13Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - TrojVLM: Backdoor Attack Against Vision Language Models [50.87239635292717]
本研究では、視覚言語モデル(VLM)を対象としたバックドアアタックの最初の調査であるTrojVLMを紹介する。
TrojVLMは、有毒な画像に遭遇したとき、所定のターゲットテキストを出力テキストに挿入する。
画像内容のセマンティックな整合性を確保するために,新たなセマンティック保存損失を提案する。
論文 参考訳(メタデータ) (2024-09-28T04:37:09Z) - Bilevel Fast Scene Adaptation for Low-Light Image Enhancement [50.639332885989255]
低照度シーンにおける画像の強調は、コンピュータビジョンにおいて難しいが、広く懸念されている課題である。
主な障害は、異なるシーンにまたがる分散の相違によるモデリングの混乱にある。
上述の潜在対応をモデル化するための双レベルパラダイムを導入する。
エンコーダのシーン非関連な一般化を多様なシーンにもたらすために、双方向学習フレームワークを構築した。
論文 参考訳(メタデータ) (2023-06-02T08:16:21Z) - Unsupervised Vision-and-Language Pre-training Without Parallel Images
and Captions [92.47566804182338]
画像キャプションコーパスを使わずに教師なし事前学習により、強力なV&L表現モデルを学習できるかどうかを検討する。
特に,テキストのみのコーパスと画像のみのコーパスで,マスク・アンド・予測の事前学習を行うことを提案する。
4つの英語のV&Lベンチマークで、アライメントされたデータで事前訓練されたモデルに近いこのような単純なアプローチの性能が得られた。
論文 参考訳(メタデータ) (2020-10-24T08:17:54Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。