論文の概要: Boosting In-Context Learning with Factual Knowledge
- arxiv url: http://arxiv.org/abs/2309.14771v1
- Date: Tue, 26 Sep 2023 09:06:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 14:23:28.428983
- Title: Boosting In-Context Learning with Factual Knowledge
- Title(参考訳): ファクチュアル知識によるインテクスト学習の促進
- Authors: Jianing Wang, Chengyu Wang, Chuanqi Tan, Jun Huang, Ming Gao
- Abstract要約: In-Context Learning (ICL) over Large Language Model (LLMs) は、いくつかのトレーニング例を条件に、これまで見つからなかったタスクを解決することを目的としている。
本稿では、3つの中核面におけるICLの性能に事実知識が不可欠であることを実証する。
In-Context Tuning (KICT) フレームワークを導入し,ICLの性能向上を図る。
- 参考スコア(独自算出の注目度): 39.93507764191706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In-Context Learning (ICL) over Large language models (LLMs) aims at solving
previously unseen tasks by conditioning on a few training examples, eliminating
the need for parameter updates and achieving competitive performance. In this
paper, we demonstrate that factual knowledge is imperative for the performance
of ICL in three core facets, i.e., the inherent knowledge learned in LLMs, the
factual knowledge derived from the selected in-context examples, and the
knowledge biases in LLMs for output generation. To unleash the power of LLMs in
few-shot learning scenarios, we introduce a novel Knowledgeable In-Context
Tuning (KICT) framework to further improve the performance of ICL: 1) injecting
factual knowledge to LLMs during continual self-supervised pre-training, 2)
judiciously selecting the examples with high knowledge relevance, and 3)
calibrating the prediction results based on prior knowledge. We evaluate the
proposed approaches on auto-regressive LLMs (e.g., GPT-style models) over
multiple text classification and question answering tasks. Experimental results
demonstrate that KICT substantially outperforms strong baselines, and improves
by more than 13% and 7% of accuracy on text classification and question
answering tasks, respectively.
- Abstract(参考訳): In-Context Learning (ICL) over Large Language Model (LLMs) は、いくつかのトレーニング例を条件として、パラメータ更新の必要性を排除し、競合的なパフォーマンスを実現することで、これまで見られなかったタスクを解決することを目的としている。
本稿では、3つの中核領域におけるICLの性能,すなわちLLMで学んだ固有知識,選択したインコンテキストの例から得られた事実知識,および出力生成のためのLLMにおける知識バイアスについて,事実知識が不可欠であることを実証する。
数ショットの学習シナリオにおいてLLMの力を解き放つために、ICLの性能をさらに向上させる新しいKICT(Knowledgeable In-Context Tuning)フレームワークを導入する。
1【自己監督前訓練中のllmに事実知識を注入すること】
2)高い知識のある例を適切に選定し、
3)事前知識に基づいて予測結果を校正する。
複数のテキスト分類や質問応答タスクに対する自己回帰型LPM(例えばGPTスタイルのモデル)に対する提案手法の評価を行った。
実験の結果,KICTは強いベースラインを著しく上回り,テキスト分類と質問応答タスクの精度が13%以上,7%以上向上していることがわかった。
関連論文リスト
- ICLEval: Evaluating In-Context Learning Ability of Large Language Models [68.7494310749199]
In-Context Learning (ICL) は大規模言語モデル(LLM)の重要な能力であり、相互接続された入力の理解と推論を可能にする。
既存の評価フレームワークは主に言語能力と知識に重点を置いており、しばしばICL能力の評価を見落としている。
LLMのICL能力を評価するためにICLEvalベンチマークを導入する。
論文 参考訳(メタデータ) (2024-06-21T08:06:10Z) - Is In-Context Learning Sufficient for Instruction Following in LLMs? [38.29072578390376]
実効性はあるものの, MT-Bench の命令微調整と比較すると, ICL とAL とのアライメントは依然として不十分であることがわかった。
我々は、我々の知識、ICLの体系的比較、低データ体制における命令追従のための命令微調整(IFT)を初めて提供する。
論文 参考訳(メタデータ) (2024-05-30T09:28:56Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - BIDER: Bridging Knowledge Inconsistency for Efficient Retrieval-Augmented LLMs via Key Supporting Evidence [23.55601157586831]
本稿では,検索文書をキー・サポート・エビデンス(Key Supporting Evidence)に洗練する手法であるBIDERを紹介する。
我々は,KSEの製作から学習してBIDERを訓練し,その出力をLLMの情報取得の好みに合わせて最大化する。
BIDER は LLM の回答品質を7% 向上させ,検索文書の入力内容長を80% 削減し,既存手法より優れていた。
論文 参考訳(メタデータ) (2024-02-19T14:28:31Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Hint-enhanced In-Context Learning wakes Large Language Models up for knowledge-intensive tasks [54.153914606302486]
大規模言語モデル(LLM)の規模拡大に伴い、インコンテキスト学習(ICL)能力が出現した。
我々は、オープンドメイン質問応答におけるICLのパワーを探るため、Hint-enhanced In-Context Learning(HICL)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-03T14:39:20Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - KoLA: Carefully Benchmarking World Knowledge of Large Language Models [87.96683299084788]
我々は知識指向LLMアセスメントベンチマーク(KoLA)を構築した。
人間の認知を模倣して、知識関連能力の4段階の分類を形成し、19ドルのタスクをカバーします。
私たちは、LLMによって事前訓練されたコーパスであるウィキペディアと、継続的に収集された新興コーパスを使用して、目に見えないデータや進化する知識を扱う能力を評価します。
論文 参考訳(メタデータ) (2023-06-15T17:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。