Fugu-MT 論文翻訳(概要): KITLM: Domain-Specific Knowledge InTegration into Language Models for Question Answering

論文の概要: KITLM: Domain-Specific Knowledge InTegration into Language Models for Question Answering

arxiv url: http://arxiv.org/abs/2308.03638v1
Date: Mon, 7 Aug 2023 14:42:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-08 13:15:36.752742
Title: KITLM: Domain-Specific Knowledge InTegration into Language Models for Question Answering
Title（参考訳）: KITLM: 質問応答のための言語モデルへのドメイン特化知識の取り込み
Authors: Ankush Agarwal, Sakharam Gawade, Amar Prakash Azad and Pushpak Bhattacharyya
Abstract要約: 大規模言語モデル(LLM)は、幅広い自然言語処理において顕著な性能を示した。関連情報注入による言語モデルへの知識ベース統合手法であるKITLMを提案する。提案手法は,GPT-3.5-turbo と最先端知識注入法 SKILL を併用し,MetaQA 上での精度の1.5倍の精度向上を実現している。
参考スコア（独自算出の注目度）: 30.129418454426844
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have demonstrated remarkable performance in a wide range of natural language tasks. However, as these models continue to grow in size, they face significant challenges in terms of computational costs. Additionally, LLMs often lack efficient domain-specific understanding, which is particularly crucial in specialized fields such as aviation and healthcare. To boost the domain-specific understanding, we propose, KITLM, a novel knowledge base integration approach into language model through relevant information infusion. By integrating pertinent knowledge, not only the performance of the language model is greatly enhanced, but the model size requirement is also significantly reduced while achieving comparable performance. Our proposed knowledge-infused model surpasses the performance of both GPT-3.5-turbo and the state-of-the-art knowledge infusion method, SKILL, achieving over 1.5 times improvement in exact match scores on the MetaQA. KITLM showed a similar performance boost in the aviation domain with AeroQA. The drastic performance improvement of KITLM over the existing methods can be attributed to the infusion of relevant knowledge while mitigating noise. In addition, we release two curated datasets to accelerate knowledge infusion research in specialized fields: a) AeroQA, a new benchmark dataset designed for multi-hop question-answering within the aviation domain, and b) Aviation Corpus, a dataset constructed from unstructured text extracted from the National Transportation Safety Board reports. Our research contributes to advancing the field of domain-specific language understanding and showcases the potential of knowledge infusion techniques in improving the performance of language models on question-answering.
Abstract（参考訳）: 大規模言語モデル(LLM)は、幅広い自然言語処理において顕著な性能を示した。しかし、これらのモデルのサイズが大きくなるにつれて、計算コストの面で大きな課題に直面している。加えて、llmにはドメイン固有の効率的な理解が欠如しており、航空や医療といった専門分野において特に重要である。ドメイン固有の理解を促進するために、関連する情報注入を通じて言語モデルに新しい知識ベース統合アプローチであるkitlmを提案する。関連する知識を統合することで、言語モデルの性能が大幅に向上するだけでなく、モデルサイズ要件も大幅に削減され、同等のパフォーマンスが達成される。提案手法は,GPT-3.5-turbo と最先端知識注入法 SKILL を併用し,MetaQA 上での精度の1.5倍の精度向上を実現している。 KITLMはAeroQAと航空部門で同様の性能向上を示した。既存の手法に対するKITLMの劇的な性能向上は、ノイズを緩和しながら関連する知識の注入によるものである。さらに,専門分野における知識注入研究を加速する2つのデータセットをリリースする。 a)AeroQAは、航空領域内でのマルチホップ質問応答用に設計された新しいベンチマークデータセットで、 b) 航空コーパスは,国家運輸安全委員会報告書から抽出された非構造化テキストから構築されたデータセットである。本研究は,ドメイン固有言語理解分野の進展に寄与し,質問応答における言語モデルの性能向上における知識注入技術の可能性を示す。

関連論文リスト

Bactrainus: Optimizing Large Language Models for Multi-hop Complex Question Answering Tasks [5.439505575097552]
本研究では,HotpotQAデータセットを用いて,大規模言語モデルのドメイン固有タスク実行能力を評価する。このタスクは、これらのモデルの言語理解能力を評価するための挑戦的なベンチマークとなる。その結果,これらの手法と大規模言語モデルを統合することで,F1スコアの最大4%の改善が期待できることがわかった。
論文参考訳（メタデータ） (2025-01-10T18:44:06Z)
RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文参考訳（メタデータ） (2024-10-18T03:45:19Z)
Enhancing SLM via ChatGPT and Dataset Augmentation [0.3844771221441211]
我々は,大言語モデル (LLMs) と小言語モデル (SLMs) のパフォーマンスギャップを埋めるために,知識蒸留技術と合成データセット拡張を用いている。提案手法は,情報抽出と情報推論という2種類の理性生成を伴い,ANLIデータセットを充実させる。その結果, 合成合理化によって自然言語の理解能力が向上し, ANLIデータセット上での分類精度が1.3%, 2.3%向上することが判明した。
論文参考訳（メタデータ） (2024-09-19T09:24:36Z)
Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文参考訳（メタデータ） (2024-04-11T04:22:15Z)
LLM-DA: Data Augmentation via Large Language Models for Few-Shot Named Entity Recognition [67.96794382040547]
$LLM-DA$は、数発のNERタスクのために、大きな言語モデル(LLM)に基づいた、新しいデータ拡張テクニックである。提案手法では,14のコンテキスト書き換え戦略を採用し,同一タイプのエンティティ置換を設計し,ロバスト性を高めるためにノイズ注入を導入する。
論文参考訳（メタデータ） (2024-02-22T14:19:56Z)
Augmenting LLMs with Knowledge: A survey on hallucination prevention [0.0]
この調査は言語モデル(LM)の領域を掘り下げ、外部の知識ソースをタップする機能を備えている。欠落したトークンを予測するという標準的な目的に固執する一方で、これらの拡張LMは多種多様で、おそらくパラメトリックでない外部モジュールを活用する。
論文参考訳（メタデータ） (2023-09-28T14:09:58Z)
Improving Open Information Extraction with Large Language Models: A Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文参考訳（メタデータ） (2023-09-07T01:35:24Z)
Knowledge-Augmented Reasoning Distillation for Small Language Models in Knowledge-Intensive Tasks [90.11273439036455]
大規模言語モデル(LLM)は知識集約推論タスクにおいて有望なパフォーマンスを示している。外部知識ベースから得られた知識を付加したLPMから理性を生成するための,小型LMを微調整する新しい手法であるKARDを提案する。我々は,KARDが知識集約型推論データセットにおいて,小さなT5モデルとGPTモデルの性能を著しく向上させることを示す。
論文参考訳（メタデータ） (2023-05-28T13:00:00Z)
A Cohesive Distillation Architecture for Neural Language Models [0.0]
自然言語処理の最近のトレンドは、言語モデル(LM)のサイズが指数関数的に増加することである。本研究では,大規模モデルの効率的な代替手段を提供するために,知識蒸留法(KD)について検討する。
論文参考訳（メタデータ） (2023-01-12T08:01:53Z)
KAER: A Knowledge Augmented Pre-Trained Language Model for Entity Resolution [0.6284767263654553]
本稿では,事前学習された言語モデルに,エンティティ解決のための外部知識を付加した新しいフレームワークを提案する。我々のモデルは、既存の最先端エンティティ解決手法であるDittoを改善している。
論文参考訳（メタデータ） (2023-01-12T00:15:40Z)
Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文参考訳（メタデータ） (2022-11-09T18:58:29Z)
LM-CORE: Language Models with Contextually Relevant External Knowledge [13.451001884972033]
モデルパラメータに大量の知識を格納することは、絶え間なく増加する知識とリソースの要求を考えると、準最適である、と我々は主張する。 LM-CORE - これを実現するための一般的なフレームワークで、外部の知識ソースから言語モデルのトレーニングをテキストデカップリングすることができる。実験結果から, LM-COREは知識探索タスクにおいて, 最先端の知識強化言語モデルよりも大きく, 堅牢な性能を実現していることがわかった。
論文参考訳（メタデータ） (2022-08-12T18:59:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。