Fugu-MT 論文翻訳(概要): KnowledgeHub: An end-to-end Tool for Assisted Scientific Discovery

論文の概要: KnowledgeHub: An end-to-end Tool for Assisted Scientific Discovery

arxiv url: http://arxiv.org/abs/2406.00008v1
Date: Thu, 16 May 2024 13:17:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-09 16:19:21.711729
Title: KnowledgeHub: An end-to-end Tool for Assisted Scientific Discovery
Title（参考訳）: KnowledgeHub: 科学的発見を支援するエンドツーエンドツール
Authors: Shinnosuke Tanaka, James Barry, Vishnudev Kuruvanthodi, Movina Moses, Maxwell J. Giammona, Nathan Herr, Mohab Elkaref, Geeth De Mel,
Abstract要約: 本稿では、知識Hubツール、科学文献情報抽出(IE)および質問回答(QA)パイプラインについて述べる。これはPDF文書がテキストや構造化表現に変換されるのをサポートすることで達成される。ブラウザベースのアノテーションツールは、オントロジーに従ってPDF文書の内容に注釈を付けることができる。これらのエンティティと関係トリプルから知識グラフを構築し、データから洞察を得るためにクエリすることができる。
参考スコア（独自算出の注目度）: 1.6080795642111267
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: This paper describes the KnowledgeHub tool, a scientific literature Information Extraction (IE) and Question Answering (QA) pipeline. This is achieved by supporting the ingestion of PDF documents that are converted to text and structured representations. An ontology can then be constructed where a user defines the types of entities and relationships they want to capture. A browser-based annotation tool enables annotating the contents of the PDF documents according to the ontology. Named Entity Recognition (NER) and Relation Classification (RC) models can be trained on the resulting annotations and can be used to annotate the unannotated portion of the documents. A knowledge graph is constructed from these entity and relation triples which can be queried to obtain insights from the data. Furthermore, we integrate a suite of Large Language Models (LLMs) that can be used for QA and summarisation that is grounded in the included documents via a retrieval component. KnowledgeHub is a unique tool that supports annotation, IE and QA, which gives the user full insight into the knowledge discovery pipeline.
Abstract（参考訳）: 本稿では、知識Hubツール、科学文献情報抽出(IE)および質問回答(QA)パイプラインについて述べる。これはPDF文書がテキストや構造化表現に変換されるのをサポートすることで達成される。オントロジーは、ユーザがキャプチャしたいエンティティとリレーションのタイプを定義するように構築できる。ブラウザベースのアノテーションツールは、オントロジーに従ってPDF文書の内容に注釈を付けることができる。名前付きエンティティ認識(NER)と関係分類(RC)モデルは、結果として得られたアノテーションに基づいてトレーニングすることができ、文書の注釈のない部分を注釈付けするのに使うことができる。これらのエンティティと関係トリプルから知識グラフを構築し、データから洞察を得るためにクエリすることができる。さらに,QAや要約に使用できるLarge Language Models (LLMs) のスイートを統合する。 KnowledgeHubは、アノテーション、IE、QAをサポートするユニークなツールである。

関連論文リスト

GeAR: Generation Augmented Retrieval [82.20696567697016]
文書検索技術は大規模情報システム開発の基礎となる。一般的な手法は、バイエンコーダを構築し、セマンティックな類似性を計算することである。我々は、よく設計された融合およびデコードモジュールを組み込んだ $textbfGe$neration という新しい手法を提案する。
論文参考訳（メタデータ） (2025-01-06T05:29:00Z)
Knowledge-Aware Query Expansion with Large Language Models for Textual and Relational Retrieval [49.42043077545341]
知識グラフ(KG)から構造化文書関係を付加したLLMを拡張した知識対応クエリ拡張フレームワークを提案する。文書テキストをリッチなKGノード表現として活用し、KAR(Knowledge-Aware Retrieval)のための文書ベースの関係フィルタリングを利用する。
論文参考訳（メタデータ） (2024-10-17T17:03:23Z)
The Design of an LLM-powered Unstructured Analytics System [0.3622961597765815]
本稿では,非構造化分析システムであるArynの設計と,その設計を動機づけるテネットとユースケースについて述べる。 Arynには、自然言語クエリをSycamoreスクリプトに変換するクエリプランナのLunaと、生のPDFとドキュメントイメージを取得するDocParseが含まれている。 NTSB(National Transportation Safety Board)のリアルタイムレポートに照らして、RAGよりも精度の高い分析クエリを実現するために、これらの部品が組み合わさった方法を示す。
論文参考訳（メタデータ） (2024-09-01T21:30:14Z)
DANIEL: A fast Document Attention Network for Information Extraction and Labelling of handwritten documents [4.298545628576284]
手書き文書理解のための完全なエンドツーエンドアーキテクチャであるDANIEL(Document Attention Network for Information extract and Labelling)を紹介する。 DANIELは全ページ文書上でレイアウト認識、手書き認識、名前付きエンティティ認識を行う。複数の言語、レイアウト、タスクを同時に学習できる。
論文参考訳（メタデータ） (2024-07-12T09:09:56Z)
Hypergraph based Understanding for Document Semantic Entity Recognition [65.84258776834524]
我々は,ハイパグラフアテンションを利用したハイパグラフアテンション文書セマンティックエンティティ認識フレームワークHGAを構築し,エンティティ境界とエンティティカテゴリを同時に重視する。 FUNSD, CORD, XFUNDIE で得られた結果は,本手法が意味的エンティティ認識タスクの性能を効果的に向上できることを示す。
論文参考訳（メタデータ） (2024-07-09T14:35:49Z)
DocTr: Document Transformer for Structured Information Extraction in Documents [36.1145541816468]
本稿では、視覚的にリッチな文書から構造化情報を取り出すための新しい定式化について述べる。既存のIOBタグやグラフベースの定式化の制限に対処することを目的としている。我々は、エンティティをアンカーワードとバウンディングボックスとして表現し、エンティティリンクをアンカーワードの関連付けとして表現する。
論文参考訳（メタデータ） (2023-07-16T02:59:30Z)
mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document Understanding [55.4806974284156]
文書理解とは、ウェブページのようなデジタル文書から自動的に情報を抽出し、分析し、理解することである。既存のMLLM(Multi-model Large Language Models)は、浅いOCRフリーテキスト認識において、望ましくないゼロショット機能を実証している。
論文参考訳（メタデータ） (2023-07-04T11:28:07Z)
KnowGL: Knowledge Generation and Linking from Text [13.407149206621828]
我々は,テキストをABoxアサーションの集合として表される構造化された関係データに変換するツールであるKnowGLを提案する。本稿では,BARTなどの事前学習されたシーケンス・ツー・シーケンス言語モデルを活用することで,シーケンス生成タスクとしてこの問題に対処する。ツールの機能を示すために,入力テキストから抽出したセマンティックデータをナビゲートするUIウィジェットからなるWebアプリケーションを構築した。
論文参考訳（メタデータ） (2022-10-25T12:12:36Z)
Layout-Aware Information Extraction for Document-Grounded Dialogue: Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。 LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文参考訳（メタデータ） (2022-07-14T07:59:45Z)
Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。 UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。 UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文参考訳（メタデータ） (2022-04-22T21:47:04Z)
SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文参考訳（メタデータ） (2020-05-01T17:30:10Z)
Dependently Typed Knowledge Graphs [4.157595789003928]
本稿では,標準セマンティックWeb技術(RDFとそのクエリ言語SPARQL)を依存型理論と統一的に再現する方法を示す。知識グラフの基本機能を提供するのに加えて、依存型はエンティティとクエリの両方をエンコードする表現力を与えます。
論文参考訳（メタデータ） (2020-03-08T14:04:23Z)
Kleister: A novel task for Information Extraction involving Long Documents with Complex Layout [5.8530995077744645]
2つの新しいデータセットを備えた新しいタスク(Kleisterという名前)を導入します。 NLPシステムは、長い形式文書において、様々な種類のエンティティについて最も重要な情報を見つけなければならない。異なる名前付きエンティティ認識アーキテクチャを持つテキストのみのベースラインとしてパイプライン法を提案する。
論文参考訳（メタデータ） (2020-03-04T22:45:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。