論文の概要: OASYS: Domain-Agnostic Automated System for Constructing Knowledge Base
from Unstructured Text
- arxiv url: http://arxiv.org/abs/2207.07597v1
- Date: Wed, 29 Jun 2022 22:03:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-24 11:50:09.289001
- Title: OASYS: Domain-Agnostic Automated System for Constructing Knowledge Base
from Unstructured Text
- Title(参考訳): OASYS:非構造化テキストから知識ベースを構築するドメイン非依存自動システム
- Authors: Minsang Kim, Sang-hyun Je, Eunjoo Park
- Abstract要約: 文書からデータをマイニングする知識ベース自動構築システムを提案する。
対象のドメインテキストコーパスと事前定義された知識ベースのみを使用して、ドメインに依存しないトレーニングが可能である。
人間の注釈付きテストデータセットと自動生成データセットの両方を提供します。
- 参考スコア(独自算出の注目度): 0.3867363075280544
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In recent years, creating and managing knowledge bases have become crucial to
the retail product and enterprise domains. We present an automatic knowledge
base construction system that mines data from documents. This system can
generate training data during the training process without human intervention.
Therefore, it is domain-agnostic trainable using only the target domain text
corpus and a pre-defined knowledge base. This system is called OASYS and is the
first system built with the Korean language in mind. In addition, we also have
constructed a new human-annotated benchmark dataset of the Korean Wikipedia
corpus paired with a Korean DBpedia to aid system evaluation. The system
performance results on human-annotated benchmark test dataset are meaningful
and show that the generated knowledge base from OASYS trained on only
auto-generated data is useful. We provide both a human-annotated test dataset
and an auto-generated dataset.
- Abstract(参考訳): 近年では、リテール製品や企業ドメインにおいて、知識ベースの作成と管理が重要になっている。
文書からデータをマイニングする知識ベース自動構築システムを提案する。
このシステムは、人間の介入なしにトレーニングプロセス中にトレーニングデータを生成することができる。
したがって、対象ドメインテキストコーパスと予め定義された知識ベースのみを使用して、ドメインに依存しないトレーニングが可能である。
このシステムはOASYSと呼ばれ、韓国語を念頭に構築された最初のシステムである。
また,システム評価を支援するために,韓国版ウィキペディアコーパスと韓国版dbpediaをペアにした,人間アノテーションによるベンチマークデータセットも構築した。
人手によるベンチマークテストデータセットのシステム性能は有意義であり,自動生成データのみに基づいてトレーニングされたOASYSから生成された知識ベースが有用であることを示す。
人間のアノテーションによるテストデータセットと自動生成データセットの両方を提供する。
関連論文リスト
- Evaluating and Improving Automatic Speech Recognition Systems for Korean Meteorological Experts [35.32176244394426]
本稿では,韓国の気象学者を対象とした自然言語クエリシステムへの自動音声認識の統合について検討する。
韓国の気象分野におけるASRシステム開発における課題に対処する。
論文 参考訳(メタデータ) (2024-10-24T05:40:07Z) - STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases [93.96463520716759]
テキストと知識ベースを用いた大規模半構造検索ベンチマークSTARKを開発した。
本ベンチマークでは, 製品検索, 学術論文検索, 精密医療におけるクエリの3分野について検討した。
多様なリレーショナル情報と複雑なテキスト特性を統合した,現実的なユーザクエリを合成する,新しいパイプラインを設計する。
論文 参考訳(メタデータ) (2024-04-19T22:54:54Z) - Learning Structure-Aware Representations of Dependent Types [3.7794090250290187]
Agdaは依存型プログラミング言語であり、証明アシスタントである。
本稿では,Agdaエコシステムを機械学習領域に拡張する。
我々は,Agdaプログラムプロテクションの新しいデータセットを導入し,リリースする。
論文 参考訳(メタデータ) (2024-02-03T09:56:37Z) - On Using Distribution-Based Compositionality Assessment to Evaluate
Compositional Generalisation in Machine Translation [10.840893953881652]
実世界の自然言語タスクにおける合成一般化を評価するためのベンチマークを開発することが重要である。
これは、Europarl翻訳コーパスをトレーニングとテストセットに分割し、テストセットが構成的一般化能力を必要とするようにすることで行われる。
これは、自然言語合成性ベンチマークを作成するための、完全に自動化された手順である。
論文 参考訳(メタデータ) (2023-11-14T15:37:19Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - IELM: An Open Information Extraction Benchmark for Pre-Trained Language
Models [75.48081086368606]
我々は、事前学習言語モデル(LM)のための新しいオープン情報抽出(OIE)ベンチマークを導入する。
我々は、事前訓練されたLMに存在するオープンリレーショナル情報を十分に検証することを目的としたOIEベンチマークを作成する。
驚いたことに、事前訓練されたLMは、両方の標準OIEデータセットで競合する性能を得ることができる。
論文 参考訳(メタデータ) (2022-10-25T16:25:00Z) - Classifying Unstructured Clinical Notes via Automatic Weak Supervision [17.45660355026785]
クラスラベル記述のみから学習する、一般的な弱教師付きテキスト分類フレームワークを導入する。
我々は、事前訓練された言語モデルとデータプログラミングフレームワークに格納された言語ドメインの知識を活用して、テキストにコードラベルを割り当てる。
論文 参考訳(メタデータ) (2022-06-24T05:55:49Z) - Addressing Issues of Cross-Linguality in Open-Retrieval Question
Answering Systems For Emergent Domains [67.99403521976058]
新型コロナウイルスの緊急ドメインに対する言語横断的オープン検索型質問応答システムについて紹介する。
本システムでは,検索した文書の信頼性を確保するために,学術論文のコーパスを採用している。
深いセマンティック・レトリバーは、我々の英語からすべてのデータに対するトレーニングの恩恵が大きく、言語横断環境ではBM25ベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-01-26T19:27:32Z) - Human-in-the-Loop Disinformation Detection: Stance, Sentiment, or
Something Else? [93.91375268580806]
政治とパンデミックは、機械学習対応の偽ニュース検出アルゴリズムの開発に十分な動機を与えている。
既存の文献は、主に完全自動化されたケースに焦点を当てているが、その結果得られた技術は、軍事応用に必要な様々なトピック、ソース、時間スケールに関する偽情報を確実に検出することはできない。
既に利用可能なアナリストを人間のループとして活用することにより、感情分析、アスペクトベースの感情分析、姿勢検出といった標準的な機械学習技術は、部分的に自動化された偽情報検出システムに使用するためのもっとも有効な方法となる。
論文 参考訳(メタデータ) (2021-11-09T13:30:34Z) - Unified Instance and Knowledge Alignment Pretraining for Aspect-based
Sentiment Analysis [96.53859361560505]
Aspect-based Sentiment Analysis (ABSA) は、ある側面に対する感情の極性を決定することを目的としている。
事前トレーニングと下流ABSAデータセットの間には、常に深刻なドメインシフトが存在する。
我々は,バニラ・プレトレイン・ファインチューンパイプラインにアライメント事前訓練フレームワークを導入する。
論文 参考訳(メタデータ) (2021-10-26T04:03:45Z) - SA2SL: From Aspect-Based Sentiment Analysis to Social Listening System
for Business Intelligence [0.2107969466194361]
本稿では,ベトナムにおけるアスペクトベース感情分析に基づくソーシャルリスニングシステムの構築プロセスについて述べる。
UIT-ViSFDはアスペクトベースの感情分析を評価するためのベンチマークコーパスであり,11,122の人文付コメントをモバイルeコマース向けに作成する。
最後に重要なのは、データセット上で最高のパフォーマンスモデルに基づいたソーシャルリスニングシステムであるSA2SLを構築することです。
論文 参考訳(メタデータ) (2021-05-31T16:09:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。