論文の概要: Procedural Knowledge Extraction from Industrial Troubleshooting Guides Using Vision Language Models
- arxiv url: http://arxiv.org/abs/2601.22754v1
- Date: Fri, 30 Jan 2026 09:31:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.351075
- Title: Procedural Knowledge Extraction from Industrial Troubleshooting Guides Using Vision Language Models
- Title(参考訳): 視覚言語モデルを用いた産業トラブルシューティングガイドからの手続き的知識抽出
- Authors: Guillermo Gil de Avalle, Laura Maruster, Christos Emmanouilidis,
- Abstract要約: 産業トラブルシューティングガイドは、空間的レイアウトと技術言語が共同で意味を伝えるフローチャートのようなダイアグラムの診断手順を符号化する。
本稿では,構造化知識抽出のための2つの視覚言語モデルについて検討する。
結果は、レイアウトの感度とセマンティックな堅牢性の間のモデル固有のトレードオフを明らかにし、実践的なデプロイメント決定を通知する。
- 参考スコア(独自算出の注目度): 1.0450509067356146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Industrial troubleshooting guides encode diagnostic procedures in flowchart-like diagrams where spatial layout and technical language jointly convey meaning. To integrate this knowledge into operator support systems, which assist shop-floor personnel in diagnosing and resolving equipment issues, the information must first be extracted and structured for machine interpretation. However, when performed manually, this extraction is labor-intensive and error-prone. Vision Language Models offer potential to automate this process by jointly interpreting visual and textual meaning, yet their performance on such guides remains underexplored. This paper evaluates two VLMs on extracting structured knowledge, comparing two prompting strategies: standard instruction-guided versus an augmented approach that cues troubleshooting layout patterns. Results reveal model-specific trade-offs between layout sensitivity and semantic robustness, informing practical deployment decisions.
- Abstract(参考訳): 産業トラブルシューティングガイドは、空間的レイアウトと技術言語が共同で意味を伝えるフローチャートのようなダイアグラムの診断手順を符号化する。
この知識を作業者支援システムに統合するためには、まず、機械解釈のために、店員が機器の問題を診断・解決するために、情報を抽出・構造化する必要がある。
しかし、手動で行うと、この抽出は労働集約的でエラーを起こしやすい。
視覚言語モデルは、視覚的意味とテキスト的意味を共同で解釈することで、このプロセスを自動化する可能性を秘めている。
本稿では,構造化知識を抽出する2つのVLMについて,標準命令誘導と,トラブルシューティングレイアウトパターンを手がかりとした拡張アプローチの比較を行った。
結果は、レイアウトの感度とセマンティックな堅牢性の間のモデル固有のトレードオフを明らかにし、実践的なデプロイメント決定を通知する。
関連論文リスト
- Knowledge-Guided Textual Reasoning for Explainable Video Anomaly Detection via LLMs [0.0]
弱教師付きビデオ異常検出のための言語駆動フレームワークTbVAD(Text-based Explainable Video Anomaly Detection)を提案する。
TbVADは言語によるビデオセマンティクスを表現し、解釈可能な知識に基づく推論を可能にする。
我々は、UCF-CrimeとXD-Violenceの2つの公開ベンチマークでTbVADを評価し、テキスト知識推論が解釈可能で信頼性の高い異常検出を提供することを示した。
論文 参考訳(メタデータ) (2025-10-30T01:18:55Z) - Vision-Grounded Machine Interpreting: Improving the Translation Process through Visual Cues [0.0]
Vision-Grounded Interpreting (VGI) は、一元的機械解釈の限界に対処するために設計された新しい手法である。
本稿では,Webカメラからの音声入力と視覚入力の両方を処理するために,視覚言語モデルを統合するプロトタイプシステムを提案する。
本手法の有効性を評価するため,3種類のあいまいさを対象とする手作り診断コーパスを構築した。
論文 参考訳(メタデータ) (2025-09-28T16:25:33Z) - I2I-STRADA -- Information to Insights via Structured Reasoning Agent for Data Analysis [0.0]
現実世界のデータ分析には一貫した認知ワークフローが必要です。
この推論プロセスの形式化を目的としたエージェントアーキテクチャであるI2I-STRADAを紹介する。
論文 参考訳(メタデータ) (2025-07-23T18:58:42Z) - Interactively Diagnosing Errors in a Semantic Parser [7.136205674624813]
本稿では,CNLUのための対話型エラー診断システムについて述べる。
モデルベース診断問題として,INLDパイプラインの最初の2段階をキャストする方法を示す。
本システムでは, 合成例における意味的誤りを診断する能力を示す。
論文 参考訳(メタデータ) (2024-07-08T21:16:09Z) - Diffexplainer: Towards Cross-modal Global Explanations with Diffusion Models [51.21351775178525]
DiffExplainerは、言語ビジョンモデルを活用することで、マルチモーダルなグローバルな説明可能性を実現する新しいフレームワークである。
最適化されたテキストプロンプトに条件付けされた拡散モデルを使用し、クラス出力を最大化する画像を合成する。
生成した視覚的記述の分析により、バイアスと突発的特徴の自動識別が可能になる。
論文 参考訳(メタデータ) (2024-04-03T10:11:22Z) - Interpretable and Explainable Machine Learning Methods for Predictive
Process Monitoring: A Systematic Literature Review [1.3812010983144802]
本稿では,機械学習モデル(ML)の予測プロセスマイニングの文脈における説明可能性と解釈可能性について,系統的に検討する。
我々は、様々なアプリケーション領域にまたがる現在の方法論とその応用の概要を概観する。
我々の研究は、プロセス分析のためのより信頼性が高く透明で効果的なインテリジェントシステムの開発と実装方法について、研究者や実践者がより深く理解することを目的としている。
論文 参考訳(メタデータ) (2023-12-29T12:43:43Z) - Injecting linguistic knowledge into BERT for Dialogue State Tracking [60.42231674887294]
本稿では,教師なしの枠組みを用いて言語知識を抽出する手法を提案する。
次に、この知識を用いて、対話状態追跡(DST)タスクにおけるBERTの性能と解釈可能性を高める。
このフレームワークを様々なDSTタスクでベンチマークし、精度の顕著な改善を観察する。
論文 参考訳(メタデータ) (2023-11-27T08:38:42Z) - Explaining Explainability: Towards Deeper Actionable Insights into Deep
Learning through Second-order Explainability [70.60433013657693]
2階説明可能なAI(SOXAI)は、最近インスタンスレベルからデータセットレベルまで説明可能なAI(XAI)を拡張するために提案されている。
そこで本研究では,SOXAIの動作可能な洞察に基づくトレーニングセットから無関係な概念を除外することで,モデルの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2023-06-14T23:24:01Z) - Unveiling the Unseen: A Comprehensive Survey on Explainable Anomaly Detection in Images and Videos [49.07140708026425]
画像やビデオを含む視覚データの異常検出とローカライゼーションは、機械学習や現実世界のアプリケーションにおいて不可欠である。
本稿では,説明可能な2次元視覚異常検出(X-VAD)に焦点を当てた初の包括的調査を行う。
本稿では,その基礎技術によって分類された説明可能な手法の文献レビューを行う。
我々は、将来的な方向性と、説明品質の定量化を含むオープンな問題について議論する。
論文 参考訳(メタデータ) (2023-02-13T20:17:41Z) - Supporting Vision-Language Model Inference with Confounder-pruning Knowledge Prompt [71.77504700496004]
視覚言語モデルは、オープンセットの視覚概念を扱うために、画像とテキストのペアを共通の空間に整列させることで事前訓練される。
事前訓練されたモデルの転送可能性を高めるため、最近の研究では、固定または学習可能なプロンプトが採用されている。
しかし、どのようにして、どのプロンプトが推論性能を改善するのかは、まだ不明である。
論文 参考訳(メタデータ) (2022-05-23T07:51:15Z) - Reasoning over Vision and Language: Exploring the Benefits of
Supplemental Knowledge [59.87823082513752]
本稿では,汎用知識基盤(KB)から視覚言語変換器への知識の注入について検討する。
我々は複数のタスクやベンチマークに対する様々なkbの関連性を実証的に研究する。
この技術はモデルに依存しず、最小限の計算オーバーヘッドで任意の視覚言語変換器の適用可能性を拡張することができる。
論文 参考訳(メタデータ) (2021-01-15T08:37:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。