論文の概要: Increasing the Accessibility of Causal Domain Knowledge via Causal Information Extraction Methods: A Case Study in the Semiconductor Manufacturing Industry
- arxiv url: http://arxiv.org/abs/2411.10172v1
- Date: Fri, 15 Nov 2024 13:18:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-18 15:39:25.928535
- Title: Increasing the Accessibility of Causal Domain Knowledge via Causal Information Extraction Methods: A Case Study in the Semiconductor Manufacturing Industry
- Title(参考訳): 因果情報抽出手法による因果ドメイン知識のアクセシビリティ向上:半導体製造業を事例として
- Authors: Houssam Razouk, Leonie Benischke, Daniel Garber, Roman Kern,
- Abstract要約: 本研究では,SST(Single-stage sequence tagging)とMST(Multi-stage sequence tagging)の2種類の因果情報抽出手法を提案する。
MSTはプレゼンテーションスライドから抽出したテキストに対して73%のF1スコアを達成する。
- 参考スコア(独自算出の注目度): 1.5468177185307304
- License:
- Abstract: The extraction of causal information from textual data is crucial in the industry for identifying and mitigating potential failures, enhancing process efficiency, prompting quality improvements, and addressing various operational challenges. This paper presents a study on the development of automated methods for causal information extraction from actual industrial documents in the semiconductor manufacturing industry. The study proposes two types of causal information extraction methods, single-stage sequence tagging (SST) and multi-stage sequence tagging (MST), and evaluates their performance using existing documents from a semiconductor manufacturing company, including presentation slides and FMEA (Failure Mode and Effects Analysis) documents. The study also investigates the effect of representation learning on downstream tasks. The presented case study showcases that the proposed MST methods for extracting causal information from industrial documents are suitable for practical applications, especially for semi structured documents such as FMEAs, with a 93\% F1 score. Additionally, MST achieves a 73\% F1 score on texts extracted from presentation slides. Finally, the study highlights the importance of choosing a language model that is more aligned with the domain and in-domain fine-tuning.
- Abstract(参考訳): テキストデータから因果情報を抽出することは、潜在的な障害の特定と緩和、プロセス効率の向上、品質改善の促進、さまざまな運用上の課題への対処において、業界において不可欠である。
本稿では,半導体産業における実際の産業文書から因果情報を自動的に抽出する手法の開発について述べる。
本研究では,SST (Single-stage sequence tagging) とMST (Multi-stage sequence tagging) の2種類の因果情報抽出手法を提案し,プレゼンテーションスライドやFMEA (Failure Mode and Effects Analysis) 文書を含む半導体製造企業の既存文書を用いてその性能評価を行った。
また,下流課題に対する表現学習の効果についても検討した。
本稿では,産業文書から因果情報を抽出する MST 法が,特にFMEA などの半構造化文書において,93 % F1 スコアで実用に適していることを示す。
さらに、MSTはプレゼンテーションスライドから抽出したテキストに対して、73%のF1スコアを達成する。
最後に、この研究は、ドメインとドメイン内の微調整をより整合させる言語モデルを選択することの重要性を強調している。
関連論文リスト
- Out-of-Distribution Detection with Attention Head Masking for Multimodal Document Classification [3.141006099594433]
本稿では,文書分類システムにおける多モードOODタスクに対するアテンションヘッドマスキング(AHM)と呼ばれる新しい手法を提案する。
実験により,提案手法がすべての最先端手法より優れていることを示す。
高品質な公開可能なドキュメントデータセットの不足に対処するために、新しいドキュメントAIデータセットであるFunderDocsを紹介します。
論文 参考訳(メタデータ) (2024-08-20T23:30:00Z) - A Universal Prompting Strategy for Extracting Process Model Information from Natural Language Text using Large Language Models [0.8899670429041453]
生成型大規模言語モデル(LLM)は,広範囲なデータを必要とすることなく,非常に高品質なNLPタスクを解くことができることを示す。
新たなプロンプト戦略に基づいて,LLMが最先端の機械学習手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-07-26T06:39:35Z) - Extracting Training Data from Document-Based VQA Models [67.1470112451617]
VLM(Vision-Language Models)は、文書ベースの視覚質問回答において顕著な進歩を遂げている(つまり、画像として提供される入力文書の内容に関する問い合わせに応答する)。
これらのモデルでは、関連する視覚情報が削除された場合でも、トレーニングサンプルに対する応答を記憶し、それらをリグルジタイズすることができる。
これには、トレーニングセットで繰り返し繰り返されるパーソナライズ可能な情報が含まれており、これらのモデルが機密情報を漏らし、したがってプライバシーリスクを引き起こす可能性があることを示している。
論文 参考訳(メタデータ) (2024-07-11T17:44:41Z) - Leveraging Data Augmentation for Process Information Extraction [0.0]
自然言語テキストデータに対するデータ拡張の適用について検討する。
データ拡張は、自然言語テキストからビジネスプロセスモデルを生成するタスクのための機械学習メソッドを実現する上で重要なコンポーネントである。
論文 参考訳(メタデータ) (2024-04-11T06:32:03Z) - Fine-tuning and aligning question answering models for complex
information extraction tasks [0.8392546351624164]
質問応答(QA)や通過検索モデルのような抽出言語モデルは、クエリ結果が適切なコンテキスト文書の境界内で見つかることを保証します。
既存のドイツ語のQAモデルを微調整することで,複雑な言語的特徴の抽出タスクをカスタマイズする性能が向上することを示す。
評価基準を再現するために,Levenshtein 距離,F1-Score,Exact Match,ROUGE-L の組合せを推定した。
論文 参考訳(メタデータ) (2023-09-26T10:02:21Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Application of Transformers based methods in Electronic Medical Records:
A Systematic Literature Review [77.34726150561087]
本研究は,異なるNLPタスクにおける電子カルテ(EMR)のトランスフォーマーに基づく手法を用いて,最先端技術に関する体系的な文献レビューを行う。
論文 参考訳(メタデータ) (2023-04-05T22:19:42Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - SAIS: Supervising and Augmenting Intermediate Steps for Document-Level
Relation Extraction [51.27558374091491]
本稿では,関係抽出のための中間ステップ(SAIS)を監督し,拡張することにより,関連コンテキストやエンティティタイプをキャプチャするモデルを明示的に教えることを提案する。
そこで本提案手法は,より効果的な管理を行うため,より優れた品質の関係を抽出するだけでなく,それに対応する証拠をより正確に抽出する。
論文 参考訳(メタデータ) (2021-09-24T17:37:35Z) - A Review on Fact Extraction and Verification [19.373340472113703]
本研究では,あるクレームの正当性を特定することを目的とした事実チェック問題について検討する。
我々は、Fact extract and verification(FEVER)タスクとそれに伴うデータセットに焦点を当てる。
このタスクは必須であり、偽ニュースの検出や医療クレームの検証といったアプリケーションの構築ブロックになる可能性がある。
論文 参考訳(メタデータ) (2020-10-06T20:05:43Z) - Data Mining with Big Data in Intrusion Detection Systems: A Systematic
Literature Review [68.15472610671748]
クラウドコンピューティングは、複雑で高性能でスケーラブルな計算のために、強力で必要不可欠な技術になっている。
データ生成の迅速化とボリュームは、データ管理とセキュリティに重大な課題をもたらし始めている。
ビッグデータ設定における侵入検知システム(IDS)の設計と展開が重要視されている。
論文 参考訳(メタデータ) (2020-05-23T20:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。