論文の概要: How Large Language Models Encode Context Knowledge? A Layer-Wise Probing
Study
- arxiv url: http://arxiv.org/abs/2402.16061v2
- Date: Mon, 4 Mar 2024 13:37:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 23:37:25.881687
- Title: How Large Language Models Encode Context Knowledge? A Layer-Wise Probing
Study
- Title(参考訳): コンテキスト知識をエンコードする言語モデルの規模は?
レイヤワイズ探究研究
- Authors: Tianjie Ju, Weiwei Sun, Wei Du, Xinwei Yuan, Zhaochun Ren, Gongshen
Liu
- Abstract要約: 本稿では,知識を符号化する大規模言語モデルのレイヤーワイド能力について検討する。
探索データセットの構築にはChatGPTの強力な生成能力を活用する。
矛盾する知識と新たに獲得した知識の実験は、LLMが上位層でより多くのコンテキスト知識をエンコードすることを好んでいることを示している。
- 参考スコア(独自算出の注目度): 27.23388511249688
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous work has showcased the intriguing capability of large language
models (LLMs) in retrieving facts and processing context knowledge. However,
only limited research exists on the layer-wise capability of LLMs to encode
knowledge, which challenges our understanding of their internal mechanisms. In
this paper, we devote the first attempt to investigate the layer-wise
capability of LLMs through probing tasks. We leverage the powerful generative
capability of ChatGPT to construct probing datasets, providing diverse and
coherent evidence corresponding to various facts. We employ $\mathcal V$-usable
information as the validation metric to better reflect the capability in
encoding context knowledge across different layers. Our experiments on
conflicting and newly acquired knowledge show that LLMs: (1) prefer to encode
more context knowledge in the upper layers; (2) primarily encode context
knowledge within knowledge-related entity tokens at lower layers while
progressively expanding more knowledge within other tokens at upper layers; and
(3) gradually forget the earlier context knowledge retained within the
intermediate layers when provided with irrelevant evidence. Code is publicly
available at https://github.com/Jometeorie/probing_llama.
- Abstract(参考訳): これまでの研究は、事実の検索や文脈知識の処理において、大きな言語モデル(LLM)の興味深い能力を示してきた。
しかし、LLMが知識を符号化するレイヤーワイドな能力についての研究は限られており、内部メカニズムの理解に挑戦する。
本稿では,探索タスクを通じてllmの層別能力を調べるための最初の試みについて述べる。
我々はChatGPTの強力な生成能力を活用して探索データセットを構築し、様々な事実に対応する多種多様な一貫性のある証拠を提供する。
検証基準として$\mathcal V$-useable情報を使用し、異なるレイヤ間でコンテキスト知識をエンコードする能力をよりよく反映します。
その結果,(1)上位層における文脈知識のエンコード,(2)下位層における知識関連エンティティトークンのコンテクスト知識のエンコード,(3)下位層における他のトークンのコンテクスト知識の増大,(3)無関係なエビデンスを付与した際の中間層内でのコンテクスト知識の保持を徐々に忘れること,などが示唆された。
コードはhttps://github.com/jometeorie/probing_llamaで公開されている。
関連論文リスト
- DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - DoLa: Decoding by Contrasting Layers Improves Factuality in Large
Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。
事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。
コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文 参考訳(メタデータ) (2023-09-07T17:45:31Z) - Knowledge Solver: Teaching LLMs to Search for Domain Knowledge from
Knowledge Graphs [19.0797968186656]
大規模言語モデル(LLM)は汎用的であり、その創発的能力と一般化性のために異なるタスクを解くことができる。
以前の研究では、グラフニューラルネットワーク(GNN)のような追加モジュールは、外部の知識ベースから取得した知識に基づいて訓練されている。
論文 参考訳(メタデータ) (2023-09-06T15:55:01Z) - Eva-KELLM: A New Benchmark for Evaluating Knowledge Editing of LLMs [54.22416829200613]
Eva-KELLMは、大規模言語モデルの知識編集を評価するための新しいベンチマークである。
実験結果から, 生文書を用いた知識編集手法は, 良好な結果を得るには有効ではないことが示唆された。
論文 参考訳(メタデータ) (2023-08-19T09:17:19Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - KALM: Knowledge-Aware Integration of Local, Document, and Global
Contexts for Long Document Understanding [27.4842322089676]
KALMは、ローカル、文書レベル、グローバルコンテキストにおける知識を共同で活用する知識認識言語モデルである。
6つの長い文書理解タスクとデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-08T20:51:02Z) - TegTok: Augmenting Text Generation via Task-specific and Open-world
Knowledge [83.55215993730326]
本稿では,タスク固有およびオープンワールド知識(TegTok)によるTExt生成の統一化を提案する。
本モデルでは,2種類の知識ソースからの知識エントリを高密度検索により選択し,それぞれ入力エンコーディングと出力デコーディングの段階に注入する。
論文 参考訳(メタデータ) (2022-03-16T10:37:59Z) - CoLAKE: Contextualized Language and Knowledge Embedding [81.90416952762803]
文脈型言語と知識埋め込み(CoLAKE)を提案する。
CoLAKEは、言語と知識の両方の文脈化された表現を、拡張された目的によって共同で学習する。
知識駆動タスク、知識探索タスク、言語理解タスクについて実験を行う。
論文 参考訳(メタデータ) (2020-10-01T11:39:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。