論文の概要: ArcGPT: A Large Language Model Tailored for Real-world Archival
Applications
- arxiv url: http://arxiv.org/abs/2307.14852v1
- Date: Thu, 27 Jul 2023 13:31:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-28 14:32:31.925880
- Title: ArcGPT: A Large Language Model Tailored for Real-world Archival
Applications
- Title(参考訳): arcgpt: 実世界のアーカイブアプリケーション用にカスタマイズされた大規模言語モデル
- Authors: Shitou Zhang, Jingrui Hou, Siyuan Peng, Zuchao Li, Qibiao Hu, Ping
Wang
- Abstract要約: 最初の汎用アーカイブであるArcGPTについて紹介する。
ArcGPTは、大規模で広範なアーカイブドメインデータに基づいて事前訓練されている。
実世界の4つのアーカイブタスクからなるベンチマークであるAMBLEをリリースする。
- 参考スコア(独自算出の注目度): 15.054023424672726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Archives play a crucial role in preserving information and knowledge, and the
exponential growth of such data necessitates efficient and automated tools for
managing and utilizing archive information resources. Archival applications
involve managing massive data that are challenging to process and analyze.
Although LLMs have made remarkable progress in diverse domains, there are no
publicly available archives tailored LLM. Addressing this gap, we introduce
ArcGPT, to our knowledge, the first general-purpose LLM tailored to the
archival field. To enhance model performance on real-world archival tasks,
ArcGPT has been pre-trained on massive and extensive archival domain data.
Alongside ArcGPT, we release AMBLE, a benchmark comprising four real-world
archival tasks. Evaluation on AMBLE shows that ArcGPT outperforms existing
state-of-the-art models, marking a substantial step forward in effective
archival data management. Ultimately, ArcGPT aims to better serve the archival
community, aiding archivists in their crucial role of preserving and harnessing
our collective information and knowledge.
- Abstract(参考訳): アーカイブは情報と知識の保存において重要な役割を担い、そのようなデータの指数関数的な成長は、アーカイブ情報資源の管理と活用のために効率的で自動化されたツールを必要とする。
アーカイブアプリケーションは、処理と分析が困難な大量のデータを管理する。
LLMは様々な領域で顕著な進歩を遂げているが、LLMに合わせた公開アーカイブは存在しない。
このギャップに対処し、arcgptを私たちの知識に導入し、arcgptフィールドに合わせた最初の汎用llmを紹介します。
実世界のアーキバルタスクにおけるモデル性能を向上させるため、ArcGPTは大規模で広範なアーキバルドメインデータに基づいて事前訓練されている。
ArcGPTと並行して,実世界の4つのアーカイブタスクからなるベンチマークであるAMBLEをリリースする。
AMBLEの評価は、ArcGPTが既存の最先端モデルより優れており、効果的なアーカイブデータ管理における大きな進歩であることを示している。
最終的にarcgptは、アーカイブコミュニティによりよいサービスを提供し、アーキビストが集合的な情報と知識を保存し活用する重要な役割を担っている。
関連論文リスト
- Automatic Question-Answer Generation for Long-Tail Knowledge [65.11554185687258]
テールエンティティのための特別なQAデータセットを生成するための自動アプローチを提案する。
我々は,新たに生成された長尾QAデータセットに事前学習したLLMを用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-03-03T03:06:31Z) - REAR: A Relevance-Aware Retrieval-Augmented Framework for Open-Domain
Question Answering [122.62012375722124]
既存の手法では,大規模言語モデル (LLM) は検索した文書の関連性を正確に評価することはできない。
Relevance-Aware Retrieval-augmented approach for open- domain question answering (QA)を提案する。
論文 参考訳(メタデータ) (2024-02-27T13:22:51Z) - T-RAG: Lessons from the LLM Trenches [8.480136267111762]
大規模言語モデル(LLM)は、それらをアプリケーションに統合しようとする試みを加速させる顕著な言語能力を示している。
Retrieval-Augmented Generation (RAG)は、LLMベースのアプリケーションを構築するための最も顕著なフレームワークである。
プライベートな組織文書に対する質問応答のためのLLMアプリケーションの構築とデプロイの経験を共有します。
論文 参考訳(メタデータ) (2024-02-12T08:45:08Z) - Query of CC: Unearthing Large Scale Domain-Specific Knowledge from
Public Corpora [104.16648246740543]
大規模言語モデルに基づく効率的なデータ収集手法を提案する。
この方法は、大きな言語モデルを通してシード情報をブートストラップし、公開コーパスから関連データを検索する。
特定のドメインに関する知識関連のデータを収集するだけでなく、潜在的な推論手順でデータを抽出する。
論文 参考訳(メタデータ) (2024-01-26T03:38:23Z) - Knowledge Plugins: Enhancing Large Language Models for Domain-Specific
Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。
このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文 参考訳(メタデータ) (2023-11-16T07:09:38Z) - Software Architecture Recovery with Information Fusion [14.537490019685384]
本稿では,完全に自動化されたアーキテクチャ復元手法であるSARIFを提案する。
依存関係、コードテキスト、フォルダ構造を含む3種類の包括的な情報が含まれている。
SARIFは従来の技術よりも36.1%正確である。
論文 参考訳(メタデータ) (2023-11-08T12:35:37Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z) - Multi-Objective Archiving [6.469246318869941]
アーカイブとは、新しいソリューションを以前のソリューションと比較し、アーカイブ/人口の更新方法を決定するプロセスである。
一般的な理論的観点からは、アーキビングの方法に関する体系的な研究が欠如している。
論文 参考訳(メタデータ) (2023-03-16T23:08:52Z) - G-MAP: General Memory-Augmented Pre-trained Language Model for Domain
Tasks [68.87524746922263]
G-MAP(General Memory Augmented Pre-trained Language Model)の新たなフレームワークを提案する。
G-MAPは、凍った一般PLMから構築されたメモリ表現によって、一般知識を失うことなくドメイン固有のPLMを増強する。
各種分野(生物・コンピュータ科学出版物,ニュース,レビュー)におけるG-MAPの有効性とタスクの種類(テキスト分類,QA,NER)について示す。
論文 参考訳(メタデータ) (2022-12-07T13:07:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。