論文の概要: Constructing Micro Knowledge Graphs from Technical Support Documents
- arxiv url: http://arxiv.org/abs/2504.09877v1
- Date: Mon, 14 Apr 2025 04:57:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:53:26.794318
- Title: Constructing Micro Knowledge Graphs from Technical Support Documents
- Title(参考訳): 技術支援文書からのマイクロ知識グラフの構築
- Authors: Atul Kumar, Nisha Gupta, Saswati Dana,
- Abstract要約: 本稿では,これらのWebページ毎にマイクロ知識グラフ(マイクログラフ)を作成する手法を提案する。
マイクログラフはページ内のすべてのエンティティとアクションを格納し、ページの構造を利用する。
これらのマイクログラフは、技術支援アプリケーションによって追加の知識源として利用することができる。
- 参考スコア(独自算出の注目度): 2.9741903512219574
- License:
- Abstract: Short technical support pages such as IBM Technotes are quite common in technical support domain. These pages can be very useful as the knowledge sources for technical support applications such as chatbots, search engines and question-answering (QA) systems. Information extracted from documents to drive technical support applications is often stored in the form of Knowledge Graph (KG). Building KGs from a large corpus of documents poses a challenge of granularity because a large number of entities and actions are present in each page. The KG becomes virtually unusable if all entities and actions from these pages are stored in the KG. Therefore, only key entities and actions from each page are extracted and stored in the KG. This approach however leads to loss of knowledge represented by entities and actions left out of the KG as they are no longer available to graph search and reasoning functions. We propose a set of techniques to create micro knowledge graph (micrograph) for each of such web pages. The micrograph stores all the entities and actions in a page and also takes advantage of the structure of the page to represent exactly in which part of that page these entities and actions appeared, and also how they relate to each other. These micrographs can be used as additional knowledge sources by technical support applications. We define schemas for representing semi-structured and plain text knowledge present in the technical support web pages. Solutions in technical support domain include procedures made of steps. We also propose a technique to extract procedures from these webpages and the schemas to represent them in the micrographs. We also discuss how technical support applications can take advantage of the micrographs.
- Abstract(参考訳): IBM Technotesのような短い技術サポートページは、技術サポートドメインで非常に一般的です。
これらのページは、チャットボット、検索エンジン、質問応答(QA)システムなどの技術サポートアプリケーションの知識源として非常に有用である。
技術サポートアプリケーションを駆動するための文書から抽出された情報は、しばしば知識グラフ(KG)の形式で格納される。
ドキュメントの大きなコーパスからKGを構築することは、各ページに多数のエンティティやアクションが存在するため、粒度の問題を引き起こす。
これらのページからのすべてのエンティティとアクションがKGに格納されている場合、KGは事実上使用不能になる。
したがって、各ページからキーエンティティとアクションのみが抽出され、KGに格納される。
しかしこのアプローチは、グラフ検索や推論機能ではもはや利用できないため、KGから残されたエンティティやアクションによって表現される知識の喪失につながる。
本稿では,これらのWebページ毎にマイクロ知識グラフ(マイクログラフ)を作成する手法を提案する。
マイクログラフは、すべてのエンティティとアクションをページに格納し、ページの構造を利用して、ページのどの部分が出現したのかを正確に表現する。
これらのマイクログラフは、技術支援アプリケーションによって追加の知識源として利用することができる。
技術サポートWebページに存在する半構造化および平易なテキスト知識を表現するためのスキーマを定義する。
テクニカルサポート領域のソリューションには、ステップで構成された手順が含まれる。
また、これらのWebページとスキーマからプロシージャを抽出してマイクログラフで表現する手法を提案する。
また,マイクログラフを活用可能な技術サポートアプリケーションについても論じる。
関連論文リスト
- M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding [63.33447665725129]
M3DocRAGは、様々な文書コンテキストに柔軟に対応する新しいマルチモーダルRAGフレームワークである。
M3DocRAGは視覚情報を保存しながら、単一の文書や多数の文書を効率的に処理できる。
M3DocVQAはオープンドメインDocVQAを3,000以上のPDFドキュメントと4万以上のページで評価するための新しいベンチマークである。
論文 参考訳(メタデータ) (2024-11-07T18:29:38Z) - See then Tell: Enhancing Key Information Extraction with Vision Grounding [54.061203106565706]
STNet(See then Tell Net)は,視覚基盤の正確な答えを提供するために設計された,新しいエンドツーエンドモデルである。
モデルの可視性を高めるため、広範囲に構造化されたテーブル認識データセットを収集する。
論文 参考訳(メタデータ) (2024-09-29T06:21:05Z) - iText2KG: Incremental Knowledge Graphs Construction Using Large Language Models [0.7165255458140439]
iText2KGは、後処理なしで漸進的にトピックに依存しない知識グラフを構築する方法である。
提案手法は,3つのシナリオにまたがるベースライン手法と比較して,優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-05T06:49:14Z) - μgat: Improving Single-Page Document Parsing by Providing Multi-Page Context [26.820913216377903]
この作品は、教皇登録書の大規模なコレクションであるRegesta Pontificum Romanumに焦点を当てている。
レゲスタは、他の文書の要約のカタログであり、場合によっては、そのような全文文書の内容に関する唯一の情報源である。
論文 参考訳(メタデータ) (2024-08-28T09:01:18Z) - Multi-Page Document Visual Question Answering using Self-Attention Scoring Mechanism [12.289101189321181]
Document Visual Question Answering (Document VQA)は、文書理解と自然言語処理のコミュニティから大きな関心を集めている。
最先端の単一ページのDocument VQAメソッドは、素晴らしいパフォーマンスを示しているが、マルチページのシナリオでは、これらのメソッドは苦労している。
マルチページ文書VQAタスクのための新しい手法と効率的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-04-29T18:07:47Z) - The Tactician's Web of Large-Scale Formal Knowledge [0.0]
Tactician's Webは、強く相互接続され、マシンチェックされ、正式な数学的知識を提供するプラットフォームである。
Coq証明アシスタント上に構築されたこのプラットフォームは、さまざまな形式理論を含むデータセットをエクスポートする。
証明エージェントは、同じリッチなデータ表現を通じてCoqと相互作用し、定理のセットで自動的にベンチマークすることができる。
論文 参考訳(メタデータ) (2024-01-05T18:52:35Z) - ORKG-Leaderboards: A Systematic Workflow for Mining Leaderboards as a
Knowledge Graph [0.0]
Orkg-Leaderboardは人工知能(AI)における実証研究論文の集合からリーダーボードを抽出するように設計されている
このシステムはOpen Research Knowledge Graph (ORKG)プラットフォームと統合されており、機械操作可能な発見の公開を促進する。
我々の最良のモデルは、テキストリーダーボード抽出タスクで90%以上のF1を実行するので、Orkg-Leaderboardは現実世界での使用に実用的なツールであることが証明される。
論文 参考訳(メタデータ) (2023-05-10T13:19:18Z) - FETA: Towards Specializing Foundation Models for Expert Task
Applications [49.57393504125937]
ファンデーションモデル(FM)は、ゼロショット学習、高忠実度データ合成、ドメインの一般化など、前例のない機能を示した。
この論文では、FMは、まだ専門家のタスクにおいて、出来の悪いパフォーマンスを保っていることを示します。
本稿では,FMに技術資料の理解を促すことを目的として,その第1のFETAベンチマークを提案する。
論文 参考訳(メタデータ) (2022-09-08T08:47:57Z) - Open Set Classification of Untranscribed Handwritten Documents [56.0167902098419]
重要な写本の膨大な量のデジタルページイメージが世界中のアーカイブに保存されている。
ドキュメントのクラスや型付け'はおそらくメタデータに含まれる最も重要なタグです。
技術的問題は文書の自動分類の1つであり、それぞれが書き起こされていない手書きのテキスト画像からなる。
論文 参考訳(メタデータ) (2022-06-20T20:43:50Z) - DOC2PPT: Automatic Presentation Slides Generation from Scientific
Documents [76.19748112897177]
文書・スライド生成のための新しい課題とアプローチを提案する。
エンドツーエンドでタスクに取り組むための階層的なシーケンス・ツー・シーケンスアプローチを提案する。
提案手法では,文書やスライド内の固有構造を利用して,パラフレーズとレイアウト予測モジュールを組み込んでスライドを生成する。
論文 参考訳(メタデータ) (2021-01-28T03:21:17Z) - ZeroShotCeres: Zero-Shot Relation Extraction from Semi-Structured
Webpages [66.45377533562417]
本稿では,以前は見つからなかったテンプレートを用いたWebページからの「ゼロショット」オープンドメイン関係抽出手法を提案する。
我々のモデルは、グラフニューラルネットワークに基づくアプローチを使用して、Webページ上のテキストフィールドのリッチな表現を構築します。
論文 参考訳(メタデータ) (2020-05-14T16:15:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。