論文の概要: Large-Scale Knowledge Synthesis and Complex Information Retrieval from
Biomedical Documents
- arxiv url: http://arxiv.org/abs/2302.06854v1
- Date: Tue, 14 Feb 2023 06:03:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-15 16:21:40.184340
- Title: Large-Scale Knowledge Synthesis and Complex Information Retrieval from
Biomedical Documents
- Title(参考訳): バイオメディカル文書からの大規模知識合成と複雑な情報検索
- Authors: Shreya Saxena, Raj Sangani, Siva Prasad, Shubham Kumar, Mihir Athale,
Rohan Awhad, Vishal Vaddina
- Abstract要約: 医療産業の最近の進歩は、構造化されていないデータが豊富に蓄積されている。
我々の研究は、大規模研究文書から複雑な情報を抽出し、探索するためのオールインワンのスケーラブルなソリューションを提供する。
- 参考スコア(独自算出の注目度): 0.33249867230903685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in the healthcare industry have led to an abundance of
unstructured data, making it challenging to perform tasks such as efficient and
accurate information retrieval at scale. Our work offers an all-in-one scalable
solution for extracting and exploring complex information from large-scale
research documents, which would otherwise be tedious. First, we briefly explain
our knowledge synthesis process to extract helpful information from
unstructured text data of research documents. Then, on top of the knowledge
extracted from the documents, we perform complex information retrieval using
three major components- Paragraph Retrieval, Triplet Retrieval from Knowledge
Graphs, and Complex Question Answering (QA). These components combine lexical
and semantic-based methods to retrieve paragraphs and triplets and perform
faceted refinement for filtering these search results. The complexity of
biomedical queries and documents necessitates using a QA system capable of
handling queries more complex than factoid queries, which we evaluate
qualitatively on the COVID-19 Open Research Dataset (CORD-19) to demonstrate
the effectiveness and value-add.
- Abstract(参考訳): 医療産業の最近の進歩は、構造化されていないデータが多くなり、大規模な情報検索の効率化や高精度化が困難になっている。
私たちの研究は、大規模研究文書から複雑な情報を抽出し、探索するためのオールインワンのスケーラブルなソリューションを提供しています。
まず,研究資料の構造化されていないテキストデータから有用な情報を取り出すための知識合成プロセスについて概説する。
そして,文書から抽出した知識に加えて,3つの主要成分であるParagraph Retrieval,Triplet Retrieval from Knowledge Graphs,複雑質問回答(QA)を用いて複雑な情報検索を行う。
これらのコンポーネントは語彙と意味に基づく手法を組み合わせて段落と三つ子を検索し、これらの検索結果をフィルタリングするための顔の精製を行う。
バイオメディカルクエリとドキュメントの複雑さは、ファクトイドクエリよりも複雑なクエリを処理できるQAシステムを用いて必要であり、その妥当性と付加価値を実証するために、COVID-19 Open Research Dataset (CORD-19)で定性的に評価する。
関連論文リスト
- RiTeK: A Dataset for Large Language Models Complex Reasoning over Textual Knowledge Graphs [12.846097618151951]
我々は,テキスト知識グラフ(RiTeK)を用いたLLMの複雑な推論のためのデータセットを開発し,広範なトポロジ的構造を網羅する。
多様なトポロジ構造、注釈付き情報、複雑なテキスト記述を統合した現実的なユーザクエリを合成する。
そこで我々はモンテカルロ木探索法 (CTS) を導入し, 特定のクエリに対してテキストグラフから関係経路情報を自動的に抽出する手法を提案する。
論文 参考訳(メタデータ) (2024-10-17T19:33:37Z) - STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases [93.96463520716759]
テキストと知識ベースを用いた大規模半構造検索ベンチマークSTARKを開発した。
本ベンチマークでは, 製品検索, 学術論文検索, 精密医療におけるクエリの3分野について検討した。
多様なリレーショナル情報と複雑なテキスト特性を統合した,現実的なユーザクエリを合成する,新しいパイプラインを設計する。
論文 参考訳(メタデータ) (2024-04-19T22:54:54Z) - A Question Answering Based Pipeline for Comprehensive Chinese EHR
Information Extraction [3.411065529290054]
本稿では,質問応答モデルの伝達学習のための学習データを自動的に生成する手法を提案する。
我々のパイプラインは、抽出タイプによって生じる課題に対処するために、事前処理モジュールを組み込んでいます。
得られたQAモデルは,EHRにおける情報抽出のサブタスクに優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-17T02:55:35Z) - QuOTeS: Query-Oriented Technical Summarization [0.2936007114555107]
提案するQuOTeSは,潜在的参照の集合から研究の要約に関連する文章を検索するインタラクティブシステムである。
QuOTeS は Query-Focused Extractive Summarization と High-Recall Information Retrieval の技法を統合し、科学文書のインタラクティブなクエリ-Focused Summarization を提供する。
結果から,QuOTeSは肯定的なユーザエクスペリエンスを提供し,関連する,簡潔かつ完全なクエリ中心の要約を一貫して提供することが明らかになった。
論文 参考訳(メタデータ) (2023-06-20T18:43:24Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - Structured information extraction from complex scientific text with
fine-tuned large language models [55.96705756327738]
そこで本研究では,共振器認識と関係抽出のための簡単なシーケンス・ツー・シーケンス手法を提案する。
このアプローチは、約500組のプロンプトで微調整された、事前訓練済みの大規模言語モデル(LLM)であるGPT-3を利用する。
このアプローチは、構造化されていないテキストから抽出された構造化知識の大規模なデータベースを得るための、シンプルで、アクセス可能で、非常に柔軟な経路を示す。
論文 参考訳(メタデータ) (2022-12-10T07:51:52Z) - Query-Specific Knowledge Graphs for Complex Finance Topics [6.599344783327053]
ドメインの専門家が挑戦的な質問を作成できるCODECデータセットに重点を置いています。
最先端のランキングシステムには改善の余地があることが示される。
実体と文書の関連性は正の相関関係にあることを示す。
論文 参考訳(メタデータ) (2022-11-08T10:21:13Z) - ReSel: N-ary Relation Extraction from Scientific Text and Tables by
Learning to Retrieve and Select [53.071352033539526]
学術論文からN-ary関係を抽出する問題について考察する。
提案手法であるReSelは,このタスクを2段階のプロシージャに分解する。
3つの科学的情報抽出データセットに対する実験により、ReSelは最先端のベースラインを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-10-26T02:28:02Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - CAiRE-COVID: A Question Answering and Query-focused Multi-Document
Summarization System for COVID-19 Scholarly Information Management [48.251211691263514]
我々は、リアルタイム質問応答(QA)とマルチドキュメント要約システムであるCAiRE-COVIDを紹介し、Kaggle COVID-19 Open Researchデータセットチャレンジで10のタスクのうちの1つを勝ち取った。
本システムの目的は,コミュニティからの優先度の高い質問に答えることによって,新型コロナウイルスに関する数多くの学術論文をマイニングすることにある。
論文 参考訳(メタデータ) (2020-05-04T15:07:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。