論文の概要: Instruction-tuned Language Models are Better Knowledge Learners
- arxiv url: http://arxiv.org/abs/2402.12847v1
- Date: Tue, 20 Feb 2024 09:20:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 16:22:41.157495
- Title: Instruction-tuned Language Models are Better Knowledge Learners
- Title(参考訳): インストラクションチューニング言語モデルは、より良い知識学習者である
- Authors: Zhengbao Jiang, Zhiqing Sun, Weijia Shi, Pedro Rodriguez, Chunting
Zhou, Graham Neubig, Xi Victoria Lin, Wen-tau Yih, Srinivasan Iyer
- Abstract要約: 文書の学習に先立って質問を指導する手法として,PIT(Pre-instruction-tuning)を提案する。
PIT は LLM が新しい文書から知識を吸収する能力を著しく向上させ、17.8% の標準命令チューニングを達成している。
- 参考スコア(独自算出の注目度): 110.38597778854367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In order for large language model (LLM)-based assistants to effectively adapt
to evolving information needs, it must be possible to update their factual
knowledge through continued training on new data. The standard recipe for doing
so involves continued pre-training on new documents followed by
instruction-tuning on question-answer (QA) pairs. However, we find that LLMs
trained with this recipe struggle to answer questions, even though the
perplexity of documents is minimized. We found that QA pairs are generally
straightforward, while documents are more complex, weaving many factual
statements together in an intricate manner. Therefore, we hypothesize that it
is beneficial to expose LLMs to QA pairs before continued pre-training on
documents so that the process of encoding knowledge from complex documents
takes into account how this knowledge is accessed through questions. Based on
this, we propose pre-instruction-tuning (PIT), a method that instruction-tunes
on questions prior to training on documents. This contrasts with standard
instruction-tuning, which learns how to extract knowledge after training on
documents. Extensive experiments and ablation studies demonstrate that PIT
significantly enhances the ability of LLMs to absorb knowledge from new
documents, outperforming standard instruction-tuning by 17.8%.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのアシスタントが進化する情報ニーズに効果的に適応するためには、新しいデータに対する継続的なトレーニングを通じて事実知識を更新する必要がある。
標準的なレシピでは、新しい文書の事前学習を継続し、質問応答(QA)ペアを指導する。
しかし、このレシピで訓練されたLCMは、ドキュメントの難易度が最小化されているにもかかわらず、質問に答えるのに苦労している。
QAペアは一般的に単純であるのに対して、ドキュメントはより複雑であり、多くの事実文を複雑な方法で織り込むことが分かりました。
したがって、複雑な文書から知識をエンコードするプロセスが質問を通じてどのようにアクセスされるかを考慮するために、ドキュメントを事前学習し続ける前に、llmをqaペアに公開することが有益であると仮定する。
そこで本研究では,文書の学習に先立って,質問を指導するPIT(Pre-instruction-tuning)を提案する。
これは、ドキュメントのトレーニング後に知識を抽出する方法を学ぶ標準的な命令チューニングとは対照的である。
大規模な実験とアブレーション研究により、PITはLLMが新しい文書から知識を吸収する能力を著しく向上させ、17.8%の標準命令チューニングを上回る結果となった。
関連論文リスト
- KIWI: A Dataset of Knowledge-Intensive Writing Instructions for
Answering Research Questions [63.307317584926146]
ユーザ命令に従うように適応された大規模言語モデル(LLM)は、現在では会話エージェントとして広くデプロイされている。
そこで本研究では,より一般的な命令追従タスクとして,長文の回答作成を支援することを提案する。
我々は、科学領域における知識集約的な記述命令のデータセットKIWIを構築した。
論文 参考訳(メタデータ) (2024-03-06T17:16:44Z) - BIDER: Bridging Knowledge Inconsistency for Efficient
Retrieval-Augmented LLMs via Key Supporting Evidence [25.73325039430268]
本稿では,検索文書をキー・サポート・エビデンス(Key Supporting Evidence)に洗練する手法であるBIDERを紹介する。
我々は,KSEの製作から学習してBIDERを訓練し,その出力をLLMの情報取得の好みに合わせて最大化する。
BIDER は LLM の回答品質を7% 向上させ,検索文書の入力内容長を80% 削減し,既存手法より優れていた。
論文 参考訳(メタデータ) (2024-02-19T14:28:31Z) - Improving Information Extraction on Business Documents with Specific
Pre-Training Tasks [1.9331361036118608]
トランスフォーマーベースの言語モデルは自然言語処理に関連するタスクで広く使われている。
スキャンした文書のよりコンテクスト化された表現をモデルに学習させる2つの新しい事前学習タスクを導入する。
また,情報抽出におけるBIESOタグを復号化するためのポストプロセッシングアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-09-11T13:05:23Z) - Eva-KELLM: A New Benchmark for Evaluating Knowledge Editing of LLMs [54.22416829200613]
Eva-KELLMは、大規模言語モデルの知識編集を評価するための新しいベンチマークである。
実験結果から, 生文書を用いた知識編集手法は, 良好な結果を得るには有効ではないことが示唆された。
論文 参考訳(メタデータ) (2023-08-19T09:17:19Z) - Knowledge Rumination for Pre-trained Language Models [77.55888291165462]
本稿では,学習前の言語モデルが外部コーパスから検索することなく,関連する潜在知識を活用できるようにするための,Knowledge Ruminationと呼ばれる新しいパラダイムを提案する。
本稿では,RoBERTa,DeBERTa,GPT-3などの言語モデルに適用する。
論文 参考訳(メタデータ) (2023-05-15T15:47:09Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - Knowledgeable Salient Span Mask for Enhancing Language Models as
Knowledge Base [51.55027623439027]
我々は、モデルが構造化されていないテキストから、完全に自己教師された方法でより多くの知識を学習するのを助ける2つのソリューションを開発する。
最高の知識を得るために、私たちは、継続的事前学習における知識の完全な自己教師型学習を初めて探求します。
論文 参考訳(メタデータ) (2022-04-17T12:33:34Z) - Weakly Supervised Pre-Training for Multi-Hop Retriever [23.79574380039197]
本研究では,人的努力を伴わない,弱教師付きマルチホップレトリバーの事前学習手法を提案する。
提案手法は,1)複雑な質問のベクトル表現を生成するための事前学習タスク,2)厳密なエンコーダに基づく事前学習モデル構造として,質問とサブクエストのネスト構造を生成するスケーラブルなデータ生成手法を含む。
論文 参考訳(メタデータ) (2021-06-18T08:06:02Z) - REALM: Retrieval-Augmented Language Model Pre-Training [37.3178586179607]
言語モデルの事前学習を潜伏知識検索システムで強化し,ウィキペディアのような大規模コーパスから文書を検索し,出席できるようにする。
本研究では,このような知識検索を教師なしで事前学習する方法を初めて示す。
オープンドメイン質問回答(Open-QA)の課題を微調整し,検索型言語モデル事前学習(REALM)の有効性を実証する。
論文 参考訳(メタデータ) (2020-02-10T18:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。