Fugu-MT 論文翻訳(概要): ArcGPT: A Large Language Model Tailored for Real-world Archival Applications

論文の概要: ArcGPT: A Large Language Model Tailored for Real-world Archival Applications

arxiv url: http://arxiv.org/abs/2307.14852v1
Date: Thu, 27 Jul 2023 13:31:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-28 14:32:31.925880
Title: ArcGPT: A Large Language Model Tailored for Real-world Archival Applications
Title（参考訳）: arcgpt: 実世界のアーカイブアプリケーション用にカスタマイズされた大規模言語モデル
Authors: Shitou Zhang, Jingrui Hou, Siyuan Peng, Zuchao Li, Qibiao Hu, Ping Wang
Abstract要約: 最初の汎用アーカイブであるArcGPTについて紹介する。 ArcGPTは、大規模で広範なアーカイブドメインデータに基づいて事前訓練されている。実世界の4つのアーカイブタスクからなるベンチマークであるAMBLEをリリースする。
参考スコア（独自算出の注目度）: 15.054023424672726
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Archives play a crucial role in preserving information and knowledge, and the exponential growth of such data necessitates efficient and automated tools for managing and utilizing archive information resources. Archival applications involve managing massive data that are challenging to process and analyze. Although LLMs have made remarkable progress in diverse domains, there are no publicly available archives tailored LLM. Addressing this gap, we introduce ArcGPT, to our knowledge, the first general-purpose LLM tailored to the archival field. To enhance model performance on real-world archival tasks, ArcGPT has been pre-trained on massive and extensive archival domain data. Alongside ArcGPT, we release AMBLE, a benchmark comprising four real-world archival tasks. Evaluation on AMBLE shows that ArcGPT outperforms existing state-of-the-art models, marking a substantial step forward in effective archival data management. Ultimately, ArcGPT aims to better serve the archival community, aiding archivists in their crucial role of preserving and harnessing our collective information and knowledge.
Abstract（参考訳）: アーカイブは情報と知識の保存において重要な役割を担い、そのようなデータの指数関数的な成長は、アーカイブ情報資源の管理と活用のために効率的で自動化されたツールを必要とする。アーカイブアプリケーションは、処理と分析が困難な大量のデータを管理する。 LLMは様々な領域で顕著な進歩を遂げているが、LLMに合わせた公開アーカイブは存在しない。このギャップに対処し、arcgptを私たちの知識に導入し、arcgptフィールドに合わせた最初の汎用llmを紹介します。実世界のアーキバルタスクにおけるモデル性能を向上させるため、ArcGPTは大規模で広範なアーキバルドメインデータに基づいて事前訓練されている。 ArcGPTと並行して,実世界の4つのアーカイブタスクからなるベンチマークであるAMBLEをリリースする。 AMBLEの評価は、ArcGPTが既存の最先端モデルより優れており、効果的なアーカイブデータ管理における大きな進歩であることを示している。最終的にarcgptは、アーカイブコミュニティによりよいサービスを提供し、アーキビストが集合的な情報と知識を保存し活用する重要な役割を担っている。

関連論文リスト

Agentic RAG with Knowledge Graphs for Complex Multi-Hop Reasoning in Real-World Applications [0.0]
INRAExplorerは、INRAE(フランス国立農業・食品・環境研究所)の科学的データを探索するエージェントRAGシステムである。
論文参考訳（メタデータ） (2025-07-22T12:03:10Z)
Automated Archival Descriptions with Federated Intelligence of LLMs [2.271344459418284]
この研究は、標準化されたアーカイブ記述プロセスを実装する際の課題に対処するために、エージェントAIと大規模言語モデル(LLM)の可能性を探ることを目的としている。そこで本稿では,AIによるAIによる高品質なメタデータ記述の自動生成システムを提案する。
論文参考訳（メタデータ） (2025-04-08T06:11:05Z)
PathRAG: Pruning Graph-based Retrieval Augmented Generation with Relational Paths [42.01377074786958]
Retrieval-augmented Generation (RAG)は、外部データベースから知識を取得することで、大規模言語モデル(LLM)の応答品質を改善する。本稿では、インデックス化グラフから重要な関係経路を検索し、これらの経路をテキスト形式に変換してLLMを誘導するPathRAGを提案する。 PathRAGは、6つのデータセットと5つの評価次元で、最先端のベースラインを一貫して上回る。
論文参考訳（メタデータ） (2025-02-18T11:18:55Z)
ArchRAG: Attributed Community-based Hierarchical Retrieval-Augmented Generation [16.204046295248546]
Retrieval-Augmented Generation (RAG) は、外部知識を大規模言語モデルに統合するのに有効であることが証明されている。我々は、Attributed Community-based Hierarchical RAG (ArchRAG)と呼ばれる新しいグラフベースのRAGアプローチを導入する。属性付きコミュニティのための新しい階層型インデックス構造を構築し,効果的なオンライン検索手法を開発した。
論文参考訳（メタデータ） (2025-02-14T03:28:36Z)
RedStone: Curating General, Code, Math, and QA Data for Large Language Models [134.49774529790693]
本研究では,大規模言語モデルを事前学習するための包括的かつ柔軟なリソースとして,Common Crawlの未完成の可能性を探る。私たちは、Common Crawlからデータを抽出し、処理するために設計された、革新的でスケーラブルなパイプラインであるRedStoneを紹介します。
論文参考訳（メタデータ） (2024-12-04T15:27:39Z)
ShapefileGPT: A Multi-Agent Large Language Model Framework for Automated Shapefile Processing [8.594821438139187]
大規模言語モデル(LLM)を利用した革新的なフレームワークであるShapefileGPTを提案する。 ShapefileGPTはマルチエージェントアーキテクチャを使用し、プランナーエージェントがタスクの分解と監督を担当し、ワーカーエージェントがタスクを実行する。評価のために,幾何演算や空間的クエリといったカテゴリのタスクを含む,権威教科書に基づくベンチマークデータセットを開発した。
論文参考訳（メタデータ） (2024-10-16T08:48:27Z)
MemoRAG: Moving towards Next-Gen RAG Via Memory-Inspired Knowledge Discovery [24.38640001674072]
Retrieval-Augmented Generation (RAG)は、検索ツールを利用して外部データベースにアクセスする。既存のRAGシステムは主に簡単な質問応答タスクに有効である。本稿では,MemoRAGを提案する。
論文参考訳（メタデータ） (2024-09-09T13:20:31Z)
A New Pipeline For Generating Instruction Dataset via RAG and Self Fine-Tuning [0.0]
本研究では,特定のドメインを微調整するための高品質な命令データセットを構築するパイプラインを提案する。ドメイン固有の文書を取り込み、パイプラインは関連性のある適切な命令を生成する。ケーススタディでは、専門知識と患者情報の繊細な取り扱いを必要とする領域である精神医学の領域にこのアプローチを適用した。
論文参考訳（メタデータ） (2024-08-12T03:52:11Z)
Microsoft Cloud-based Digitization Workflow with Rich Metadata Acquisition for Cultural Heritage Objects [7.450700594277742]
我々はジャギロニア図書館(JL)で新しいデジタル化ワークフローを開発した。ソリューションは、簡単にアクセスできる技術ソリューション - MS Excelファイルインターフェースを備えたMicrosoftクラウド、メタデータ取得用のOffice Script、ストレージ用のMS 365 -- に基づいており、ドメインの専門家がメタデータを取得することができる。最終的な目標は、一般的な知識基盤と他の文化遺産コレクションに関連付けられた分析された保持状況を記述する知識グラフを作成することである。
論文参考訳（メタデータ） (2024-07-09T15:49:47Z)
How to Understand Whole Software Repository? [64.19431011897515]
リポジトリ全体に対する優れた理解は、自動ソフトウェアエンジニアリング(ASE)への重要な道になるでしょう。本研究では,リポジトリ全体を包括的に理解するためのエージェントによるRepoUnderstanderという新しい手法を開発した。リポジトリレベルの知識をより活用するために、エージェントをまとめ、分析し、計画する。
論文参考訳（メタデータ） (2024-06-03T15:20:06Z)
A Survey on RAG Meeting LLMs: Towards Retrieval-Augmented Large Language Models [71.25225058845324]
大規模言語モデル(LLM)は、言語理解と生成において革命的な能力を示している。 Retrieval-Augmented Generation (RAG)は、信頼性と最新の外部知識を提供する。 RA-LLMは、モデルの内部知識に頼るのではなく、外部および権威的な知識ベースを活用するために登場した。
論文参考訳（メタデータ） (2024-05-10T02:48:45Z)
REAR: A Relevance-Aware Retrieval-Augmented Framework for Open-Domain Question Answering [115.72130322143275]
REAR(Relevance-Aware Retrieval-augmented approach for open-domain Question answering, QA) 我々は,特殊な設計のアセスメントモジュールを組み込むことで,LLMベースのRAGシステムのための新しいアーキテクチャを開発する。オープンドメインの4つのQAタスクの実験では、REARは以前の競争力のあるRAGアプローチよりも大幅に優れていた。
論文参考訳（メタデータ） (2024-02-27T13:22:51Z)
Query of CC: Unearthing Large Scale Domain-Specific Knowledge from Public Corpora [104.16648246740543]
大規模言語モデルに基づく効率的なデータ収集手法を提案する。この方法は、大きな言語モデルを通してシード情報をブートストラップし、公開コーパスから関連データを検索する。特定のドメインに関する知識関連のデータを収集するだけでなく、潜在的な推論手順でデータを抽出する。
論文参考訳（メタデータ） (2024-01-26T03:38:23Z)
Knowledge Plugins: Enhancing Large Language Models for Domain-Specific Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文参考訳（メタデータ） (2023-11-16T07:09:38Z)
Software Architecture Recovery with Information Fusion [14.537490019685384]
本稿では,完全に自動化されたアーキテクチャ復元手法であるSARIFを提案する。依存関係、コードテキスト、フォルダ構造を含む3種類の包括的な情報が含まれている。 SARIFは従来の技術よりも36.1%正確である。
論文参考訳（メタデータ） (2023-11-08T12:35:37Z)
Synergistic Interplay between Search and Large Language Models for Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。 InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文参考訳（メタデータ） (2023-05-12T11:58:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。