論文の概要: Thrust: Adaptively Propels Large Language Models with External Knowledge
- arxiv url: http://arxiv.org/abs/2307.10442v1
- Date: Wed, 19 Jul 2023 20:16:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 15:39:55.602443
- Title: Thrust: Adaptively Propels Large Language Models with External Knowledge
- Title(参考訳): Thrust: 外部知識で大規模言語モデルを適応的に推進する
- Authors: Xinran Zhao, Hongming Zhang, Xiaoman Pan, Wenlin Yao, Dong Yu, Jianshu
Chen
- Abstract要約: 大規模事前学習言語モデル(PTLM)は、モデルパラメータの豊富な知識を符号化する。
PTLMの固有の知識は不透明または静的であり、外部の知識を必要とする。
本稿では,外部知識のインスタンスレベル適応推進(IAPEK)を提案する。
- 参考スコア(独自算出の注目度): 58.72867916604562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although large-scale pre-trained language models (PTLMs) are shown to encode
rich knowledge in their model parameters, the inherent knowledge in PTLMs can
be opaque or static, making external knowledge necessary. However, the existing
information retrieval techniques could be costly and may even introduce noisy
and sometimes misleading knowledge. To address these challenges, we propose the
instance-level adaptive propulsion of external knowledge (IAPEK), where we only
conduct the retrieval when necessary. To achieve this goal, we propose
measuring whether a PTLM contains enough knowledge to solve an instance with a
novel metric, Thrust, which leverages the representation distribution of a
small number of seen instances. Extensive experiments demonstrate that thrust
is a good measurement of PTLM models' instance-level knowledgeability.
Moreover, we can achieve significantly higher cost-efficiency with the Thrust
score as the retrieval indicator than the naive usage of external knowledge on
88% of the evaluated tasks with 26% average performance improvement. Such
findings shed light on the real-world practice of knowledge-enhanced LMs with a
limited knowledge-seeking budget due to computation latency or costs.
- Abstract(参考訳): 大規模事前学習言語モデル(PTLM)はモデルパラメータの豊富な知識を符号化するが、PTLMの固有の知識は不透明あるいは静的であり、外部の知識を必要とする。
しかし、既存の情報検索技術はコストがかかり、うるさい知識や誤解を招くこともある。
これらの課題に対処するため、ケースレベル適応型外部知識推進(IAPEK)を提案し、必要なときにのみ検索を行う。
この目的を達成するために,PTLMは,少数のインスタンスの表現分布を利用する新しい計量であるThrustを用いて,インスタンスを解くのに十分な知識を持っているかを測定する。
広範な実験により、推力はPTLMモデルのインスタンスレベルの知識性の優れた測定であることが示された。
また,評価対象タスクの88%において,スラストスコアを検索指標として,外部知識のナイーブな利用よりも有意に高いコスト効率を実現することができ,平均性能が26%向上した。
このような発見は、計算の待ち時間やコストによる知識探索予算が制限された知識強化LMの現実的な実践に光を当てた。
関連論文リスト
- RECALL: A Benchmark for LLMs Robustness against External Counterfactual
Knowledge [69.79676144482792]
本研究の目的は,LLMが外部知識から信頼できる情報を識別する能力を評価することである。
本ベンチマークは,質問応答とテキスト生成という2つのタスクから構成される。
論文 参考訳(メタデータ) (2023-11-14T13:24:19Z) - Self-Knowledge Guided Retrieval Augmentation for Large Language Models [59.771098292611846]
大規模言語モデル(LLM)はタスク固有の微調整なしで優れた性能を示す。
検索に基づく手法は、非パラメトリックな世界知識を提供し、質問応答のようなタスクのパフォーマンスを向上させることができる。
SKR(Self-Knowledge guided Retrieval augmentation)は、LLMがこれまで遭遇した質問を参照できるようにする、シンプルで効果的な方法である。
論文 参考訳(メタデータ) (2023-10-08T04:22:33Z) - Augmenting LLMs with Knowledge: A survey on hallucination prevention [0.0]
この調査は言語モデル(LM)の領域を掘り下げ、外部の知識ソースをタップする機能を備えている。
欠落したトークンを予測するという標準的な目的に固執する一方で、これらの拡張LMは多種多様で、おそらくパラメトリックでない外部モジュールを活用する。
論文 参考訳(メタデータ) (2023-09-28T14:09:58Z) - Knowledge-Augmented Reasoning Distillation for Small Language Models in
Knowledge-Intensive Tasks [90.11273439036455]
大規模言語モデル(LLM)は知識集約推論タスクにおいて有望なパフォーマンスを示している。
外部知識ベースから得られた知識を付加したLPMから理性を生成するための,小型LMを微調整する新しい手法であるKARDを提案する。
我々は,KARDが知識集約型推論データセットにおいて,小さなT5モデルとGPTモデルの性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2023-05-28T13:00:00Z) - Knowledge Rumination for Pre-trained Language Models [77.55888291165462]
本稿では,学習前の言語モデルが外部コーパスから検索することなく,関連する潜在知識を活用できるようにするための,Knowledge Ruminationと呼ばれる新しいパラダイムを提案する。
本稿では,RoBERTa,DeBERTa,GPT-3などの言語モデルに適用する。
論文 参考訳(メタデータ) (2023-05-15T15:47:09Z) - When Not to Trust Language Models: Investigating Effectiveness of
Parametric and Non-Parametric Memories [58.3421305091187]
本稿では,事実知識を記憶する上でのLMの強みと限界を理解することを目的とする。
LMは、あまり一般的でない事実知識に苦しむと同時に、長期にわたる事実知識の記憶力向上に失敗する。
我々は、必要時にのみ非パラメトリックメモリを検索する、強力かつ効率的な検索拡張LMの簡易かつ効果的な手法を考案する。
論文 参考訳(メタデータ) (2022-12-20T18:30:15Z) - LM-CORE: Language Models with Contextually Relevant External Knowledge [13.451001884972033]
モデルパラメータに大量の知識を格納することは、絶え間なく増加する知識とリソースの要求を考えると、準最適である、と我々は主張する。
LM-CORE - これを実現するための一般的なフレームワークで、外部の知識ソースから言語モデルのトレーニングをテキストデカップリングすることができる。
実験結果から, LM-COREは知識探索タスクにおいて, 最先端の知識強化言語モデルよりも大きく, 堅牢な性能を実現していることがわかった。
論文 参考訳(メタデータ) (2022-08-12T18:59:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。