論文の概要: Logic Mill -- A Knowledge Navigation System
- arxiv url: http://arxiv.org/abs/2301.00200v1
- Date: Sat, 31 Dec 2022 13:46:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 14:43:06.521367
- Title: Logic Mill -- A Knowledge Navigation System
- Title(参考訳): Logic Mill - 知識ナビゲーションシステム
- Authors: Sebastian Erhardt, Mainak Ghosh, Erik Buunk, Michael E. Rose, Dietmar
Harhoff
- Abstract要約: Logic Millは、セマンティックに類似した文書を識別するスケーラブルでオープンにアクセスできるソフトウェアシステムである。
高度な自然言語処理(NLP)技術を用いて、文書の数値表現を生成する。
このシステムは、科学出版物や特許文書に焦点を合わせ、2億以上の文書を含んでいる。
- 参考スコア(独自算出の注目度): 0.08999666725996973
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Logic Mill is a scalable and openly accessible software system that
identifies semantically similar documents within either one domain-specific
corpus or multi-domain corpora. It uses advanced Natural Language Processing
(NLP) techniques to generate numerical representations of documents. Currently
it leverages a large pre-trained language model to generate these document
representations. The system focuses on scientific publications and patent
documents and contains more than 200 million documents. It is easily accessible
via a simple Application Programming Interface (API) or via a web interface.
Moreover, it is continuously being updated and can be extended to text corpora
from other domains. We see this system as a general-purpose tool for future
research applications in the social sciences and other domains.
- Abstract(参考訳): logic millはスケーラブルでオープンアクセス可能なソフトウェアシステムで、1つのドメイン固有のコーパスまたはマルチドメインコーパス内で意味的に類似したドキュメントを識別する。
高度な自然言語処理(NLP)技術を用いて、文書の数値表現を生成する。
現在、これらの文書表現を生成するために、大きな事前訓練された言語モデルを活用している。
このシステムは科学出版物や特許文書に焦点を合わせ、2億以上の文書を含んでいる。
単純なアプリケーションプログラミングインターフェース(API)やWebインターフェースを通じて簡単にアクセスできます。
さらに、継続的に更新され、他のドメインからテキストコーパスに拡張できる。
我々は、このシステムは社会科学や他の分野における将来の研究応用のための汎用ツールであると考えている。
関連論文リスト
- DOCBENCH: A Benchmark for Evaluating LLM-based Document Reading Systems [99.17123445211115]
本稿では,大規模言語モデル(LLM)に基づく文書読解システムを評価するベンチマークであるDocBenchを紹介する。
我々のベンチマークには、人間のアノテーションの募集と、合成質問の生成が含まれる。
実際の文書は229件、質問は1,102件で、5つのドメインにまたがって4種類の質問がある。
論文 参考訳(メタデータ) (2024-07-15T13:17:42Z) - DocGenome: An Open Large-scale Scientific Document Benchmark for Training and Testing Multi-modal Large Language Models [63.466265039007816]
我々は、arXivオープンアクセスコミュニティの153の分野から500Kの科学文書を注釈付けして構築した構造化文書ベンチマークDocGenomeを提案する。
我々はDocGenomeの利点を実証するために広範な実験を行い、我々のベンチマークで大規模モデルの性能を客観的に評価した。
論文 参考訳(メタデータ) (2024-06-17T15:13:52Z) - Knowledge-Driven Cross-Document Relation Extraction [3.868708275322908]
関係抽出(RE)はよく知られたNLPアプリケーションであり、文レベルや文書レベルのタスクとして扱われる。
本稿では,文書横断REのための入力テキストにエンティティのドメイン知識を組み込む新しい手法KXDocREを提案する。
論文 参考訳(メタデータ) (2024-05-22T11:30:59Z) - Domain-specific ChatBots for Science using Embeddings [0.5687661359570725]
大規模言語モデル(LLM)は、無数のタスクを処理できる強力な機械学習システムとして登場した。
本稿では,既存の手法とソフトウェアツールを簡単に組み合わせて,ドメイン固有のチャットボットを実現する方法を紹介する。
論文 参考訳(メタデータ) (2023-06-15T15:26:20Z) - An Empirical Investigation into the Use of Image Captioning for
Automated Software Documentation [17.47243004709207]
本稿では,グラフィカルユーザインタフェースとソフトウェアの機能的自然言語記述との関係について検討する。
人気の高いAndroidアプリケーションのスクリーンショット10,204枚に対して45,998個の説明からなる,関数型GUI記述の大規模なデータセットを収集し,分析し,オープンソースにしています。
GUIの表現可能性に関する洞察を得るため、4つのニューラルイメージキャプションモデルを用いて、スクリーンショットを入力として提供した場合に、様々な粒度の自然言語記述を予測する能力について検討する。
論文 参考訳(メタデータ) (2023-01-03T17:15:18Z) - Unifying Vision, Text, and Layout for Universal Document Processing [105.36490575974028]
本稿では,テキスト,画像,レイアウトのモダリティを文書理解と生成を含むさまざまなタスク形式とともに統合するドキュメントAIモデルを提案する。
我々の手法は、財務報告、学術論文、ウェブサイトなど、さまざまなデータ領域にまたがって、文書理解やQAといった9つのドキュメントAIタスクの最先端を定めている。
論文 参考訳(メタデータ) (2022-12-05T22:14:49Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - Combining Deep Learning and Reasoning for Address Detection in
Unstructured Text Documents [0.0]
本研究では,非構造化文書からアドレスを検索・抽出する手法として,ディープラーニングと推論を組み合わせたハイブリッド手法を提案する。
スキャンした文書画像上のアドレス領域の境界を検出するために,視覚的深層学習モデルを用いる。
論文 参考訳(メタデータ) (2022-02-07T12:32:00Z) - Open Domain Question Answering over Virtual Documents: A Unified
Approach for Data and Text [62.489652395307914]
我々は、知識集約型アプリケーションのための構造化知識を符号化する手段として、Data-to-text法、すなわち、オープンドメイン質問応答(QA)を用いる。
具体的には、ウィキペディアとウィキソースの3つのテーブルを付加知識源として使用する、データとテキスト上でのオープンドメインQAのための冗長化-レトリバー・リーダー・フレームワークを提案する。
UDT-QA(Unified Data and Text QA)は,知識インデックスの拡大を効果的に活用できることを示す。
論文 参考訳(メタデータ) (2021-10-16T00:11:21Z) - Kleister: A novel task for Information Extraction involving Long
Documents with Complex Layout [5.8530995077744645]
2つの新しいデータセットを備えた新しいタスク(Kleisterという名前)を導入します。
NLPシステムは、長い形式文書において、様々な種類のエンティティについて最も重要な情報を見つけなければならない。
異なる名前付きエンティティ認識アーキテクチャを持つテキストのみのベースラインとしてパイプライン法を提案する。
論文 参考訳(メタデータ) (2020-03-04T22:45:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。