論文の概要: Extracting Procedural Knowledge from Technical Documents
- arxiv url: http://arxiv.org/abs/2010.10156v1
- Date: Tue, 20 Oct 2020 09:47:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 06:03:49.766371
- Title: Extracting Procedural Knowledge from Technical Documents
- Title(参考訳): 技術文書から手続き知識を抽出する
- Authors: Shivali Agarwal, Shubham Atreja, Vikas Agarwal
- Abstract要約: 手続きは、自動化、質問応答、会話の推進のために認知アシスタントが活用できる文書の重要な知識コンポーネントである。
プロダクトマニュアルやユーザガイドといった巨大なドキュメントを解析して,どの部分でプロシージャについて話しているのかを自動的に理解し,それを抽出することは,非常に難しい問題です。
- 参考スコア(独自算出の注目度): 1.0773368566852943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Procedures are an important knowledge component of documents that can be
leveraged by cognitive assistants for automation, question-answering or driving
a conversation. It is a challenging problem to parse big dense documents like
product manuals, user guides to automatically understand which parts are
talking about procedures and subsequently extract them. Most of the existing
research has focused on extracting flows in given procedures or understanding
the procedures in order to answer conceptual questions. Identifying and
extracting multiple procedures automatically from documents of diverse formats
remains a relatively less addressed problem. In this work, we cover some of
this ground by -- 1) Providing insights on how structural and linguistic
properties of documents can be grouped to define types of procedures, 2)
Analyzing documents to extract the relevant linguistic and structural
properties, and 3) Formulating procedure identification as a classification
problem that leverages the features of the document derived from the above
analysis. We first implemented and deployed unsupervised techniques which were
used in different use cases. Based on the evaluation in different use cases, we
figured out the weaknesses of the unsupervised approach. We then designed an
improved version which was supervised. We demonstrate that our technique is
effective in identifying procedures from big and complex documents alike by
achieving accuracy of 89%.
- Abstract(参考訳): 手続きは、自動化、質問応答、会話の推進のために認知アシスタントが活用できる文書の重要な知識コンポーネントである。
プロダクトマニュアルやユーザガイドといった巨大なドキュメントを解析して,どの部分でプロシージャについて話しているのかを自動的に理解し,それを抽出することは,難しい問題です。
既存の研究のほとんどは、与えられた手順におけるフローの抽出や、概念的な質問に答えるために手順を理解することに重点を置いている。
多様なフォーマットの文書から複数の手順を自動的に識別し抽出することは、比較的少ない問題である。
この作品では、この地面のいくつかを --
1) 文書の構造的・言語的性質を分類して手続きの種類を定義する方法に関する洞察を提供する。
2 関連する言語的及び構造的性質を抽出するための文書の分析、及び
3) 上記の解析から得られた文書の特徴を活かした分類問題としての形式的手続き同定
異なるユースケースで使用された教師なしのテクニックを最初に実装し、デプロイしました。
異なるユースケースにおける評価に基づいて,教師なしアプローチの弱点を見出した。
その後、監視された改良バージョンを設計しました。
提案手法は,89%の精度で,大規模かつ複雑な文書から手順を特定するのに有効であることを示す。
関連論文リスト
- Instruction-tuned Language Models are Better Knowledge Learners [106.38526595116961]
文書の学習に先立って質問を指導するPIT(Pre-instruction-tuning)を提案する。
大規模な実験とアブレーション研究により、プレインストラクションチューニングはLLMが新しい文書から知識を吸収する能力を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-02-20T09:20:32Z) - Functional Analytics for Document Ordering for Curriculum Development
and Comprehension [0.0]
本稿では,カリキュラム開発のための自動文書注文生成手法と,学習,トレーニング,その他のコンテンツシーケンスアプリケーションに使用する最適な読解順序作成手法を提案する。
このようなテクニックは、理解力の向上、説明が必要な領域の特定、カリキュラムの生成、検索結果の改善に使用することができる。
論文 参考訳(メタデータ) (2023-11-22T02:13:27Z) - Information Extraction from Documents: Question Answering vs Token
Classification in real-world setups [0.0]
質問応答法と古典的トークン分類法を比較して,文書鍵情報抽出を行う。
我々の研究は、クリーンで比較的短いエンティティを扱う場合、トークン分類に基づくアプローチを用いるのが最善であることを示した。
論文 参考訳(メタデータ) (2023-04-21T14:43:42Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - Questions Are All You Need to Train a Dense Passage Retriever [123.13872383489172]
ARTは、ラベル付きトレーニングデータを必要としない高密度検索モデルをトレーニングするための、新しいコーパスレベルのオートエンコーディングアプローチである。
そこで,(1) 入力質問を用いて証拠文書の集合を検索し,(2) 文書を用いて元の質問を再構築する確率を計算する。
論文 参考訳(メタデータ) (2022-06-21T18:16:31Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Combining Deep Learning and Reasoning for Address Detection in
Unstructured Text Documents [0.0]
本研究では,非構造化文書からアドレスを検索・抽出する手法として,ディープラーニングと推論を組み合わせたハイブリッド手法を提案する。
スキャンした文書画像上のアドレス領域の境界を検出するために,視覚的深層学習モデルを用いる。
論文 参考訳(メタデータ) (2022-02-07T12:32:00Z) - Knowledge-Aware Procedural Text Understanding with Multi-Stage Training [110.93934567725826]
本稿では,このような文書の理解とプロセス中のエンティティの状態や場所の追跡を目的とした手続き的テキスト理解の課題に焦点をあてる。
常識的推論の難しさとデータ不足という2つの課題はまだ未解決のままである。
我々は、複数の外部知識を効果的に活用する、KnOwledge-Aware ProceduraL text understAnding (KOALA)モデルを提案する。
論文 参考訳(メタデータ) (2020-09-28T10:28:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。