論文の概要: TechGPT-2.0: A large language model project to solve the task of
knowledge graph construction
- arxiv url: http://arxiv.org/abs/2401.04507v1
- Date: Tue, 9 Jan 2024 11:52:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 15:45:10.562876
- Title: TechGPT-2.0: A large language model project to solve the task of
knowledge graph construction
- Title(参考訳): TechGPT-2.0:知識グラフ構築の課題を解決するための大規模言語モデルプロジェクト
- Authors: Jiaqi Wang, Yuying Chang, Zhong Li, Ning An, Qi Ma, Lei Hei, Haibo
Luo, Yifei Lu, Feiliang Ren
- Abstract要約: TechGPT-2.0は知識グラフ構築タスクにおける大規模言語モデルの能力を高めるために設計されたプロジェクトである。
特に医学や法律の分野において、堅牢なテキスト処理能力を示す。
TechGPT-2.0はHuaweiのAscendサーバでトレーニングされている。
- 参考スコア(独自算出の注目度): 31.638140593358433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models have exhibited robust performance across diverse
natural language processing tasks. This report introduces TechGPT-2.0, a
project designed to enhance the capabilities of large language models
specifically in knowledge graph construction tasks, including named entity
recognition (NER) and relationship triple extraction (RTE) tasks in NLP
applications. Additionally, it serves as a LLM accessible for research within
the Chinese open-source model community. We offer two 7B large language model
weights and a QLoRA weight specialized for processing lengthy texts.Notably,
TechGPT-2.0 is trained on Huawei's Ascend server. Inheriting all
functionalities from TechGPT-1.0, it exhibits robust text processing
capabilities, particularly in the domains of medicine and law. Furthermore, we
introduce new capabilities to the model, enabling it to process texts in
various domains such as geographical areas, transportation, organizations,
literary works, biology, natural sciences, astronomical objects, and
architecture. These enhancements also fortified the model's adeptness in
handling hallucinations, unanswerable queries, and lengthy texts. This report
provides a comprehensive and detailed introduction to the full fine-tuning
process on Huawei's Ascend servers, encompassing experiences in Ascend server
debugging, instruction fine-tuning data processing, and model training. Our
code is available at https://github.com/neukg/TechGPT-2.0
- Abstract(参考訳): 大規模言語モデルは多様な自然言語処理タスクにおいて堅牢な性能を示している。
本報告では,知識グラフ構築タスクにおける大規模言語モデルの能力向上を目的としたプロジェクトであるTechGPT-2.0を紹介し,NLPアプリケーションにおける名前付きエンティティ認識(NER)と関係トリプル抽出(RTE)タスクについて紹介する。
さらに、中国のオープンソースモデルコミュニティ内の研究に利用できるllmとしても機能する。
長文処理に特化した2つの7B大言語モデルウェイトとQLoRAウェイトを提供していますが、特にTechGPT-2.0はHuaweiのAscendサーバでトレーニングされています。
TechGPT-1.0から全ての機能を継承し、特に医学や法分野において、堅牢なテキスト処理能力を示す。
さらに, 地理領域, 交通機関, 組織, 文学作品, 生物学, 自然科学, 天文学的対象, 建築など, 様々な分野のテキストを処理できるように, モデルに新たな機能を導入する。
これらの拡張は、幻覚、難解なクエリ、長いテキストを扱うモデルの適性も強化した。
本報告では,HuaweiのAscendサーバのフル微調整プロセスについて,Ascendサーバデバッグ,命令微調整データ処理,モデルトレーニングの経験を包括的に詳細に紹介する。
私たちのコードはhttps://github.com/neukg/TechGPT-2.0で利用可能です。
関連論文リスト
- In-Context Code-Text Learning for Bimodal Software Engineering [26.0027882745058]
バイモーダルなソフトウェア分析は、大きな言語モデルの出現とともに、当初は手の届くところにあるように見えた。
コードテキストのバイモーダル性に対するコンテキスト内学習は有望な道であると仮定する。
我々は、23のソフトウェアエンジニアリングタスクを含む多様なデータセットを考察し、コンテキスト内学習フォーマットで変換する。
論文 参考訳(メタデータ) (2024-10-08T19:42:00Z) - GemmAr: Enhancing LLMs Through Arabic Instruction-Tuning [0.0]
InstAr-500kは、コンテンツの生成と収集によって生成された新しいアラビア文字の命令データセットである。
我々は,オープンソースのGemma-7Bモデルを下流タスクで微調整し,その機能を改善することにより,このデータセットを評価する。
複数の評価結果に基づき, アラビアNLPベンチマークにおいて, 微調整モデルにより優れた性能が得られた。
論文 参考訳(メタデータ) (2024-07-02T10:43:49Z) - CMULAB: An Open-Source Framework for Training and Deployment of Natural Language Processing Models [59.91221728187576]
本稿では,NLPモデルのモデル展開と連続的なヒューマン・イン・ザ・ループの微調整を簡単にするオープンソースフレームワークであるCMU言語バックエンドを紹介する。
CMULABは、マルチ言語モデルのパワーを活用して、音声認識、OCR、翻訳、構文解析などの既存のツールを新しい言語に迅速に適応し、拡張することができる。
論文 参考訳(メタデータ) (2024-04-03T02:21:46Z) - Walia-LLM: Enhancing Amharic-LLaMA by Integrating Task-Specific and Generative Datasets [2.8123257987021058]
タスク固有および生成データセットを統合することでLLaMA-2-Amharicモデルの強化に注力する。
我々はAmharic命令の微調整データセットとLLaMA-2-Amharicモデルをコンパイルする。
微調整されたモデルは、異なるNLPタスクで有望な結果を示す。
論文 参考訳(メタデータ) (2024-02-12T19:25:11Z) - SoTaNa: The Open-Source Software Development Assistant [81.86136560157266]
SoTaNaはオープンソースのソフトウェア開発アシスタントだ。
ソフトウェア工学の分野のための高品質な命令ベースのデータを生成する。
オープンソースの基盤モデルであるLLaMAを強化するためにパラメータ効率のよい微調整アプローチを採用している。
論文 参考訳(メタデータ) (2023-08-25T14:56:21Z) - Text2KGBench: A Benchmark for Ontology-Driven Knowledge Graph Generation
from Text [2.396908230113859]
大規模言語モデル (LLM) と創発的機能を持つ基礎モデルは、多くのNLPタスクの性能を向上させることが示されている。
オントロジーでガイドされた自然言語テキストから知識グラフ(KG)を生成する言語モデルの能力を評価するベンチマークであるText2KGBenchを提案する。
論文 参考訳(メタデータ) (2023-08-04T14:47:15Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - Deep Bidirectional Language-Knowledge Graph Pretraining [159.9645181522436]
DRAGONは、テキストとKGを大規模に融合した言語知識基盤モデルを事前学習するための自己教師型アプローチである。
我々のモデルは、入力としてテキストセグメントと関連するKGサブグラフのペアを取り、両モードから情報を双方向に融合する。
論文 参考訳(メタデータ) (2022-10-17T18:02:52Z) - TegTok: Augmenting Text Generation via Task-specific and Open-world
Knowledge [83.55215993730326]
本稿では,タスク固有およびオープンワールド知識(TegTok)によるTExt生成の統一化を提案する。
本モデルでは,2種類の知識ソースからの知識エントリを高密度検索により選択し,それぞれ入力エンコーディングと出力デコーディングの段階に注入する。
論文 参考訳(メタデータ) (2022-03-16T10:37:59Z) - KILT: a Benchmark for Knowledge Intensive Language Tasks [102.33046195554886]
知識集約型言語タスク(KILT)のベンチマークを示す。
KILTのすべてのタスクはウィキペディアのスナップショットと同じだ。
共有密度ベクトル指数とSeq2seqモデルとの結合が強いベースラインであることが分かる。
論文 参考訳(メタデータ) (2020-09-04T15:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。