論文の概要: How Large Language Models Encode Context Knowledge? A Layer-Wise Probing
Study
- arxiv url: http://arxiv.org/abs/2402.16061v1
- Date: Sun, 25 Feb 2024 11:15:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 15:34:01.236060
- Title: How Large Language Models Encode Context Knowledge? A Layer-Wise Probing
Study
- Title(参考訳): コンテキスト知識をエンコードする言語モデルの規模は?
レイヤワイズ探究研究
- Authors: Tianjie Ju, Weiwei Sun, Wei Du, Xinwei Yuan, Zhaochun Ren, Gongshen
Liu
- Abstract要約: 本稿では,知識を符号化する大規模言語モデルのレイヤーワイド能力について検討する。
探索データセットの構築にはChatGPTの強力な生成能力を活用する。
矛盾する知識と新たに獲得した知識の実験は、LLMが上位層でより多くのコンテキスト知識をエンコードすることを好んでいることを示している。
- 参考スコア(独自算出の注目度): 27.23388511249688
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous work has showcased the intriguing capability of large language
models (LLMs) in retrieving facts and processing context knowledge. However,
only limited research exists on the layer-wise capability of LLMs to encode
knowledge, which challenges our understanding of their internal mechanisms. In
this paper, we devote the first attempt to investigate the layer-wise
capability of LLMs through probing tasks. We leverage the powerful generative
capability of ChatGPT to construct probing datasets, providing diverse and
coherent evidence corresponding to various facts. We employ $\mathcal V$-usable
information as the validation metric to better reflect the capability in
encoding context knowledge across different layers. Our experiments on
conflicting and newly acquired knowledge show that LLMs: (1) prefer to encode
more context knowledge in the upper layers; (2) primarily encode context
knowledge within knowledge-related entity tokens at lower layers while
progressively expanding more knowledge within other tokens at upper layers; and
(3) gradually forget the earlier context knowledge retained within the
intermediate layers when provided with irrelevant evidence. Code is publicly
available at https://github.com/Jometeorie/probing_llama.
- Abstract(参考訳): これまでの研究は、事実の検索や文脈知識の処理において、大きな言語モデル(LLM)の興味深い能力を示してきた。
しかし、LLMが知識を符号化するレイヤーワイドな能力についての研究は限られており、内部メカニズムの理解に挑戦する。
本稿では,探索タスクを通じてllmの層別能力を調べるための最初の試みについて述べる。
我々はChatGPTの強力な生成能力を活用して探索データセットを構築し、様々な事実に対応する多種多様な一貫性のある証拠を提供する。
検証基準として$\mathcal V$-useable情報を使用し、異なるレイヤ間でコンテキスト知識をエンコードする能力をよりよく反映します。
その結果,(1)上位層における文脈知識のエンコード,(2)下位層における知識関連エンティティトークンのコンテクスト知識のエンコード,(3)下位層における他のトークンのコンテクスト知識の増大,(3)無関係なエビデンスを付与した際の中間層内でのコンテクスト知識の保持を徐々に忘れること,などが示唆された。
コードはhttps://github.com/jometeorie/probing_llamaで公開されている。
関連論文リスト
- Looking into Black Box Code Language Models [2.5324062203985935]
私たちは、最先端の2つのコードLM、Codegen-MonoとPloycoderを使用し、Java、Go、Pythonの3つの広く使われているプログラミング言語を使用します。
CodeLMの性能を損なうことなく、フィードフォワード層内で興味ある概念を編集できることを示す。
論文 参考訳(メタデータ) (2024-07-05T21:13:41Z) - Knowledge Graph-Enhanced Large Language Models via Path Selection [58.228392005755026]
大規模言語モデル(LLM)は、様々な現実世界のアプリケーションで前例のない性能を示している。
LLMは実際に不正確な出力、すなわち幻覚の問題を発生させることが知られている。
上記の問題に対処する3段階の原理的フレームワークKELPを提案する。
論文 参考訳(メタデータ) (2024-06-19T21:45:20Z) - Prompting Large Language Models with Knowledge Graphs for Question Answering Involving Long-tail Facts [50.06633829833144]
大規模言語モデル(LLM)は、様々なNLPタスクを実行するのに効果的であるが、広範囲の現実世界の知識を必要とするタスクを扱うのに苦労する。
我々は,関連する疑問に答えるために,長期的事実の知識を必要とするベンチマークを提案する。
実験の結果,LLMだけでこれらの疑問に答えるのに苦労していることが明らかとなった。
論文 参考訳(メタデータ) (2024-05-10T15:10:20Z) - Enhancing Contextual Understanding in Large Language Models through Contrastive Decoding [9.2433070542025]
大規模言語モデル(LLM)は、テキスト生成時に入力コンテキストを不適切に統合する傾向がある。
本稿では, 逆無関係なパスを負のサンプルとして, コントラストデコーディングを統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-04T20:38:41Z) - Robust and Scalable Model Editing for Large Language Models [75.95623066605259]
LLM編集のスケーラビリティと堅牢性を向上させるため,EREN(Reading Notesによる編集モデル)を提案する。
既存の技術とは異なり、複数の編集から知識を統合することができ、構文的に類似しているが意味的に無関係な入力に正しく反応する。
論文 参考訳(メタデータ) (2024-03-26T06:57:23Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - DoLa: Decoding by Contrasting Layers Improves Factuality in Large
Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。
事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。
コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文 参考訳(メタデータ) (2023-09-07T17:45:31Z) - Knowledge Solver: Teaching LLMs to Search for Domain Knowledge from
Knowledge Graphs [19.0797968186656]
大規模言語モデル(LLM)は汎用的であり、その創発的能力と一般化性のために異なるタスクを解くことができる。
以前の研究では、グラフニューラルネットワーク(GNN)のような追加モジュールは、外部の知識ベースから取得した知識に基づいて訓練されている。
論文 参考訳(メタデータ) (2023-09-06T15:55:01Z) - TegTok: Augmenting Text Generation via Task-specific and Open-world
Knowledge [83.55215993730326]
本稿では,タスク固有およびオープンワールド知識(TegTok)によるTExt生成の統一化を提案する。
本モデルでは,2種類の知識ソースからの知識エントリを高密度検索により選択し,それぞれ入力エンコーディングと出力デコーディングの段階に注入する。
論文 参考訳(メタデータ) (2022-03-16T10:37:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。