論文の概要: Query of CC: Unearthing Large Scale Domain-Specific Knowledge from
Public Corpora
- arxiv url: http://arxiv.org/abs/2401.14624v1
- Date: Fri, 26 Jan 2024 03:38:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-29 16:01:21.329973
- Title: Query of CC: Unearthing Large Scale Domain-Specific Knowledge from
Public Corpora
- Title(参考訳): ccの問合せ:公共コーパスからの大規模ドメイン固有知識の発掘
- Authors: Zhaoye Fei, Yunfan Shao, Linyang Li, Zhiyuan Zeng, Hang Yan, Xipeng
Qiu and Dahua Lin
- Abstract要約: 大規模言語モデルに基づく効率的なデータ収集手法を提案する。
この方法は、大きな言語モデルを通してシード情報をブートストラップし、公開コーパスから関連データを検索する。
特定のドメインに関する知識関連のデータを収集するだけでなく、潜在的な推論手順でデータを抽出する。
- 参考スコア(独自算出の注目度): 104.75515844227047
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have demonstrated remarkable potential in various
tasks, however, there remains a significant scarcity of open-source models and
data for specific domains. Previous works have primarily focused on manually
specifying resources and collecting high-quality data on specific domains,
which significantly consume time and effort. To address this limitation, we
propose an efficient data collection method~\textit{Query of CC} based on large
language models. This method bootstraps seed information through a large
language model and retrieves related data from public corpora. It not only
collects knowledge-related data for specific domains but unearths the data with
potential reasoning procedures. Through the application of this method, we have
curated a high-quality dataset called~\textsc{Knowledge Pile}, encompassing
four major domains, including stem and humanities sciences, among others.
Experimental results demonstrate that~\textsc{Knowledge Pile} significantly
improves the performance of large language models in mathematical and
knowledge-related reasoning ability tests. To facilitate academic sharing, we
open-source our dataset and code, providing valuable support to the academic
community.
- Abstract(参考訳): 大規模言語モデルは様々なタスクにおいて顕著な可能性を示してきたが、特定のドメインに対するオープンソースのモデルやデータが不足している。
これまでは主に、リソースを手動で指定したり、特定のドメインで高品質なデータを収集することに注力してきた。
この制限に対処するため,大規模言語モデルに基づく効率的なデータ収集手法~\textit{Query of CC}を提案する。
この方法は,大型言語モデルを通じてシード情報をブートストラップし,公開コーパスから関連するデータを取得する。
特定のドメインに関する知識関連データを収集するだけでなく、潜在的な推論手順でデータを発掘する。
本手法の適用により,ステムと人文科学を含む4つの主要な領域を含む高品質なデータセットである~\textsc{Knowledge Pile}をキュレートした。
実験の結果,~\textsc{Knowledge Pile} は数学および知識関連推論能力試験における大規模言語モデルの性能を著しく向上させることが示された。
学術的な共有を容易にするため、私たちはデータセットとコードをオープンソース化し、学術コミュニティに貴重な支援を提供します。
関連論文リスト
- DataAgent: Evaluating Large Language Models' Ability to Answer Zero-Shot, Natural Language Queries [0.0]
OpenAIのGPT-3.5をLanguage Data Scientist(LDS)として評価する
このモデルは、さまざまなベンチマークデータセットでテストされ、そのパフォーマンスを複数の標準で評価した。
論文 参考訳(メタデータ) (2024-03-29T22:59:34Z) - ACLSum: A New Dataset for Aspect-based Summarization of Scientific
Publications [10.529898520273063]
ACLSumは、ドメインの専門家によって慎重に作成され、評価される新しい要約データセットである。
以前のデータセットとは対照的に、ACLSumは科学論文のマルチアスペクト要約を容易にする。
論文 参考訳(メタデータ) (2024-03-08T13:32:01Z) - Clue-Guided Path Exploration: Optimizing Knowledge Graph Retrieval with Large Language Models to Address the Information Black Box Challenge [19.40489486138002]
大規模言語モデルに基づく知識検索を最適化するためのCGPE(Clue-Guided Path Exploration)フレームワークを提案する。
オープンソースデータセットの実験では、CGPEは従来の手法よりも優れており、パラメータが少ないLCMに適用可能であることが明らかになった。
論文 参考訳(メタデータ) (2024-01-24T13:36:50Z) - Capture the Flag: Uncovering Data Insights with Large Language Models [90.47038584812925]
本研究では,Large Language Models (LLMs) を用いてデータの洞察の発見を自動化する可能性について検討する。
そこで本稿では,データセット内の意味的かつ関連する情報(フラグ)を識別する能力を測定するために,フラグを捕捉する原理に基づく新しい評価手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T14:20:06Z) - Knowledge Plugins: Enhancing Large Language Models for Domain-Specific
Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。
このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文 参考訳(メタデータ) (2023-11-16T07:09:38Z) - Utilising a Large Language Model to Annotate Subject Metadata: A Case
Study in an Australian National Research Data Catalogue [18.325675189960833]
オープンで再現可能な研究をサポートするために、研究のために利用可能なデータセットが急速に増えている。
データセットの可用性が向上するにつれて、それらの発見と再利用のための品質メタデータを持つことがより重要になる。
本稿では,LLMに基づくインコンテキスト学習を通じて,大規模言語モデル(LLM)を用いて,主題メタデータのコスト効率のよいアノテーションを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:52:33Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Deep Transfer Learning for Multi-source Entity Linkage via Domain
Adaptation [63.24594955429465]
マルチソースエンティティリンクは、データのクリーニングやユーザ縫合といった、高インパクトなアプリケーションにおいて重要である。
AdaMELは、多ソースエンティティリンクを実行するための一般的なハイレベルな知識を学ぶディープトランスファー学習フレームワークである。
本フレームワークは,教師付き学習に基づく平均的手法よりも8.21%向上した最先端の学習結果を実現する。
論文 参考訳(メタデータ) (2021-10-27T15:20:41Z) - HRKD: Hierarchical Relational Knowledge Distillation for Cross-domain
Language Model Compression [53.90578309960526]
大規模事前学習言語モデル(PLM)は、従来のニューラルネットワーク手法と比較して圧倒的な性能を示している。
階層的および領域的関係情報の両方を抽出する階層的関係知識蒸留法(HRKD)を提案する。
論文 参考訳(メタデータ) (2021-10-16T11:23:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。